自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

WGS.

你若对得起时间,时间便会对得起你

  • 博客(10)
  • 资源 (24)
  • 收藏
  • 关注

原创 pyspark---float() argument must be a string or a number, not ‘builtin_function_or_method‘

错误的提示很明显了,我们的np.array里的列表,肯定是含有对象的,local提交打印出来看看:果然,count是Row的内置方法,而我exodata_residual恰好有个count的列。修改列名即可。

2021-07-21 10:12:14 2820

原创 list拼成pandas的df

ids = '10_6610'values = [[1, 2, 3, 4, 5, 6], [2, 3, 4, 5, 6, 7], [3, 4, 5, 6, 7, 8]]lens = len(values)# 构造idids_li = []for i in range(len(values[0])): ids_li.append(ids)# 横向分组转为纵向分组zdict = {}zdict['alpos_id'] = ids_lifor i in range(lens):

2021-07-21 09:41:08 1310 1

原创 pyspark---将list作为df的新列添加

python中的list不能直接添加到dataframe中,需要先将list转为新的dataframe,然后新的dataframe和老的dataframe进行join操作, 下面的例子会先新建一个dataframe,然后将list转为dataframe,然后将两者join起来。from pyspark.sql.functions import litdf = sqlContext.createDataFrame( [(1, "a", 23.0), (3, "B", -23.0)], ("x1"

2021-07-20 14:23:54 4071

原创 广告中的CPM、CPC、CPA解释

文章目录CPMCPCCPA以上三种计费方式的运用CPMCPM(Cost Per Mille):每千人成本;为每千次用户曝光付费M的意思是千次曝光,翻译过来就是每千次曝光多少钱,比如浏览量是10000,计算下来就是10个M。这是衡量广告效果的一种基本形式(不管是传统媒体还是网络媒体)。为广告每展现给一千个人所需花费的成本。按CPM计费模式的广告,只看展现量,按展现量收费,不管点击、下载、注册什么的。一般情况下,如开屏广告、富媒体广告等网络广告中,视频贴片、门户banner等非常优质的广告位通常采用CP

2021-07-12 16:18:10 6559

原创 python 获取时间序列中断开的时间,并进行插值处理

文章目录获取断开的时间插值处理获取断开的时间import timefrom datetime import datetime, timedelta, dateimport numpy as npimport pandas as pdimport mathfrom scipy import interpolatedicts = [ {'date_time': '2021-06-01', 'ecpm_tom': 13}, {'date_time': '2021-06-02',

2021-07-11 17:47:07 1213 1

原创 pyspark 增加一列连续自增id

def flat(l): for k in l: if not isinstance(k, (list, tuple)): yield k else: yield from flat(k)def mkdf_tojoin(df): schema = df.schema.add(StructField("tmpid", LongType())) rdd = df.rdd.zipWithIndex()

2021-07-07 16:06:29 1096

原创 pyspark 将df分组处理后,再转回df(一行转多行)

文章目录需求描述实现代码groupby分组添加处理逻辑以RDD的形式返回,并且遍历每一行,每一行就是一个分组将一行拆为多行需求描述在spark里,对df分组是横向分组的,大家可以看这个:https://blog.csdn.net/qq_42363032/article/details/118298108spark分组实例图:注:此处分组没有聚合需求:现在想将这个df变为正常纵向的df实现代码from pyspark import SparkContext, SQLContextfrom

2021-07-07 11:27:11 1416 3

原创 pyspark 根据列表来筛选某列

from pyspark.sql import functions as fndata = data.filter(fn.col('alpos_id').isin(worthlessIds))data.show()

2021-07-06 15:18:42 1764

原创 python 读写hdfs的txt文件

from hdfs import ClienthdfsConn = Client('http://111111:111', root='/111/111', timeout=1000, session=False)NearLinearIds = []with hdfsConn.read(NearLinearIds_path, encoding='utf-8', delimiter='\n') as f: for line in f: NearLinearIds.append(

2021-07-05 17:13:59 1021

原创 pyspark 分组对某列取方差

from pyspark.sql.functions import udf@udfdef ecpm_var_fn(ecpms): if len(ecpms) == 1: return 0.0 else: return float(np.var(ecpms)) da_gb = source_data.groupby('alpos_id').agg(fn.collect_list('ecpm').alias('ecpm'))ecpm_var

2021-07-02 14:08:33 462 2

垂域大模型微调PPT方案V1.pdf

垂域大模型微调PPT方案

2023-07-15

搜狗新闻预训练embedding

搜狗新闻预训练embedding

2022-09-08

pimaindians糖尿病数据集.csv

糖尿病数据集pima-indians-diabetes

2021-05-20

cnn-vcode.rar

cnn-验证码数据集

2020-08-25

cnn_mnist.rar

CNN手写体数字识别数据集

2020-08-21

donations.rar

营销预测响应donations营销预测响应

2020-07-21

Bankcredit.rar

银行案例_预测违约概率

2020-07-20

k相邻验证码识别.rar

k相邻验证码识别.rar

2020-07-17

SogouC.rar

中文新闻分类数据集

2020-07-17

email datasets.rar

垃圾邮件分类数据集

2020-07-17

data_travel.csv

旅游客户数据集

2020-07-15

Ecommerce Customers.csv

电子商务客户(python库实现线性回归)

2020-07-14

titanic_test.csv

泰坦尼克(python库实现逻辑回归)测试集

2020-07-14

titanic_train.csv

泰坦尼克(python库实现逻辑回归)训练集

2020-07-14

stopwords.txt

停用词

2020-06-22

classify.xls

classify.xls

2020-06-22

纪录片播放量.xls

纪录片播放量.xls

2020-06-22

aviation.xls

aviation.xls

2020-06-22

机器学习个人笔记完整版v4.3.rar

机器学习个人笔记完整版v4.3.rar

2020-05-29

labely.txt

手写体数字识别训练集标签

2020-05-28

nn_imgX.txt

手写体数字识别训练特征集

2020-05-28

ccpp_train.txt

ccpp_train.txt

2020-05-20

ccpp_test.txt

ccpp_test.txt

2020-05-20

jquery滑动图片认证.rar

JS实现图片拖动验证 可以点击更换图片在img文件夹下 纯js实现图片拖动验证 滑动验证码方法在js里

2020-01-30

vs2017 C盘完全卸载.rar

卸载VS2017后,删干净C盘 卸载VS2017后,删干净C盘 卸载VS2017后,删干净C盘 卸载VS2017后,删干净C盘 卸载VS2017后,删干净C盘 卸载VS2017后,删干净C盘

2019-12-23

C-Plus-Plus-master.zip

用C++ 实现的算法 回溯、数据结构、图、搜索、分类、还有一些数学的 用C++ 实现的算法 回溯、数据结构、图、搜索、分类、还有一些数学的 用C++ 实现的算法 回溯、数据结构、图、搜索、分类、还有一些数学的

2019-12-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除