2021年07月_WGS.

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 pyspark---float() argument must be a string or a number, not ‘builtin_function_or_method‘

错误的提示很明显了，我们的np.array里的列表，肯定是含有对象的，local提交打印出来看看：果然，count是Row的内置方法，而我exodata_residual恰好有个count的列。修改列名即可。

2021-07-21 10:12:14 2820

原创 list拼成pandas的df

ids = '10_6610'values = [[1, 2, 3, 4, 5, 6], [2, 3, 4, 5, 6, 7], [3, 4, 5, 6, 7, 8]]lens = len(values)# 构造idids_li = []for i in range(len(values[0])): ids_li.append(ids)# 横向分组转为纵向分组zdict = {}zdict['alpos_id'] = ids_lifor i in range(lens):

2021-07-21 09:41:08 1310 1

原创 pyspark---将list作为df的新列添加

python中的list不能直接添加到dataframe中，需要先将list转为新的dataframe,然后新的dataframe和老的dataframe进行join操作, 下面的例子会先新建一个dataframe，然后将list转为dataframe，然后将两者join起来。from pyspark.sql.functions import litdf = sqlContext.createDataFrame( [(1, "a", 23.0), (3, "B", -23.0)], ("x1"

2021-07-20 14:23:54 4071

原创广告中的CPM、CPC、CPA解释

文章目录CPMCPCCPA以上三种计费方式的运用CPMCPM（Cost Per Mille）：每千人成本；为每千次用户曝光付费M的意思是千次曝光，翻译过来就是每千次曝光多少钱，比如浏览量是10000，计算下来就是10个M。这是衡量广告效果的一种基本形式(不管是传统媒体还是网络媒体)。为广告每展现给一千个人所需花费的成本。按CPM计费模式的广告，只看展现量，按展现量收费，不管点击、下载、注册什么的。一般情况下，如开屏广告、富媒体广告等网络广告中，视频贴片、门户banner等非常优质的广告位通常采用CP

2021-07-12 16:18:10 6559

原创 python 获取时间序列中断开的时间，并进行插值处理

文章目录获取断开的时间插值处理获取断开的时间import timefrom datetime import datetime, timedelta, dateimport numpy as npimport pandas as pdimport mathfrom scipy import interpolatedicts = [ {'date_time': '2021-06-01', 'ecpm_tom': 13}, {'date_time': '2021-06-02',

2021-07-11 17:47:07 1213 1

原创 pyspark 增加一列连续自增id

def flat(l): for k in l: if not isinstance(k, (list, tuple)): yield k else: yield from flat(k)def mkdf_tojoin(df): schema = df.schema.add(StructField("tmpid", LongType())) rdd = df.rdd.zipWithIndex()

2021-07-07 16:06:29 1096

原创 pyspark 将df分组处理后，再转回df（一行转多行）

文章目录需求描述实现代码groupby分组添加处理逻辑以RDD的形式返回，并且遍历每一行，每一行就是一个分组将一行拆为多行需求描述在spark里，对df分组是横向分组的，大家可以看这个：https://blog.csdn.net/qq_42363032/article/details/118298108spark分组实例图：注：此处分组没有聚合需求：现在想将这个df变为正常纵向的df实现代码from pyspark import SparkContext, SQLContextfrom

2021-07-07 11:27:11 1416 3

原创 pyspark 根据列表来筛选某列

from pyspark.sql import functions as fndata = data.filter(fn.col('alpos_id').isin(worthlessIds))data.show()

2021-07-06 15:18:42 1764

原创 python 读写hdfs的txt文件

from hdfs import ClienthdfsConn = Client('http://111111:111', root='/111/111', timeout=1000, session=False)NearLinearIds = []with hdfsConn.read(NearLinearIds_path, encoding='utf-8', delimiter='\n') as f: for line in f: NearLinearIds.append(

2021-07-05 17:13:59 1021

原创 pyspark 分组对某列取方差

from pyspark.sql.functions import udf@udfdef ecpm_var_fn(ecpms): if len(ecpms) == 1: return 0.0 else: return float(np.var(ecpms)) da_gb = source_data.groupby('alpos_id').agg(fn.collect_list('ecpm').alias('ecpm'))ecpm_var

2021-07-02 14:08:33 462 2