- 博客(10)
- 资源 (24)
- 收藏
- 关注
原创 pyspark---float() argument must be a string or a number, not ‘builtin_function_or_method‘
错误的提示很明显了,我们的np.array里的列表,肯定是含有对象的,local提交打印出来看看:果然,count是Row的内置方法,而我exodata_residual恰好有个count的列。修改列名即可。
2021-07-21 10:12:14 2820
原创 list拼成pandas的df
ids = '10_6610'values = [[1, 2, 3, 4, 5, 6], [2, 3, 4, 5, 6, 7], [3, 4, 5, 6, 7, 8]]lens = len(values)# 构造idids_li = []for i in range(len(values[0])): ids_li.append(ids)# 横向分组转为纵向分组zdict = {}zdict['alpos_id'] = ids_lifor i in range(lens):
2021-07-21 09:41:08 1310 1
原创 pyspark---将list作为df的新列添加
python中的list不能直接添加到dataframe中,需要先将list转为新的dataframe,然后新的dataframe和老的dataframe进行join操作, 下面的例子会先新建一个dataframe,然后将list转为dataframe,然后将两者join起来。from pyspark.sql.functions import litdf = sqlContext.createDataFrame( [(1, "a", 23.0), (3, "B", -23.0)], ("x1"
2021-07-20 14:23:54 4071
原创 广告中的CPM、CPC、CPA解释
文章目录CPMCPCCPA以上三种计费方式的运用CPMCPM(Cost Per Mille):每千人成本;为每千次用户曝光付费M的意思是千次曝光,翻译过来就是每千次曝光多少钱,比如浏览量是10000,计算下来就是10个M。这是衡量广告效果的一种基本形式(不管是传统媒体还是网络媒体)。为广告每展现给一千个人所需花费的成本。按CPM计费模式的广告,只看展现量,按展现量收费,不管点击、下载、注册什么的。一般情况下,如开屏广告、富媒体广告等网络广告中,视频贴片、门户banner等非常优质的广告位通常采用CP
2021-07-12 16:18:10 6559
原创 python 获取时间序列中断开的时间,并进行插值处理
文章目录获取断开的时间插值处理获取断开的时间import timefrom datetime import datetime, timedelta, dateimport numpy as npimport pandas as pdimport mathfrom scipy import interpolatedicts = [ {'date_time': '2021-06-01', 'ecpm_tom': 13}, {'date_time': '2021-06-02',
2021-07-11 17:47:07 1213 1
原创 pyspark 增加一列连续自增id
def flat(l): for k in l: if not isinstance(k, (list, tuple)): yield k else: yield from flat(k)def mkdf_tojoin(df): schema = df.schema.add(StructField("tmpid", LongType())) rdd = df.rdd.zipWithIndex()
2021-07-07 16:06:29 1096
原创 pyspark 将df分组处理后,再转回df(一行转多行)
文章目录需求描述实现代码groupby分组添加处理逻辑以RDD的形式返回,并且遍历每一行,每一行就是一个分组将一行拆为多行需求描述在spark里,对df分组是横向分组的,大家可以看这个:https://blog.csdn.net/qq_42363032/article/details/118298108spark分组实例图:注:此处分组没有聚合需求:现在想将这个df变为正常纵向的df实现代码from pyspark import SparkContext, SQLContextfrom
2021-07-07 11:27:11 1416 3
原创 pyspark 根据列表来筛选某列
from pyspark.sql import functions as fndata = data.filter(fn.col('alpos_id').isin(worthlessIds))data.show()
2021-07-06 15:18:42 1764
原创 python 读写hdfs的txt文件
from hdfs import ClienthdfsConn = Client('http://111111:111', root='/111/111', timeout=1000, session=False)NearLinearIds = []with hdfsConn.read(NearLinearIds_path, encoding='utf-8', delimiter='\n') as f: for line in f: NearLinearIds.append(
2021-07-05 17:13:59 1021
原创 pyspark 分组对某列取方差
from pyspark.sql.functions import udf@udfdef ecpm_var_fn(ecpms): if len(ecpms) == 1: return 0.0 else: return float(np.var(ecpms)) da_gb = source_data.groupby('alpos_id').agg(fn.collect_list('ecpm').alias('ecpm'))ecpm_var
2021-07-02 14:08:33 462 2
vs2017 C盘完全卸载.rar
2019-12-23
C-Plus-Plus-master.zip
2019-12-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人