Spark
我就是全世界
数学专业,做了很多的项目,web网站开发,移动端Api开发,桌面程序开发,Hadoop大数据,前端react,fastDFS资源服务器,数据库管理,系统运维,Scrapy分布式爬虫系统,数据挖掘,AI视觉,边缘计算,嵌入式开发,鸿蒙开发,回头一看,做的还是挺多的,于是乎,把这些心得写下来分享一下。
展开
-
Win10下用Pycharm调试spark任务
Win10下用Pycharm调试spark任务将spark包解压 spark-2.3.1-bin-2.6.0-cdh5.7.0.tgzpycharm的edit configurations中编辑环境变量添加PYTHONPATH(指向第一步spark解压后文件夹中的python目录)添加SPARK_HOME(指向第一步压缩后的spark目录)在File -> settings中的Pr...原创 2018-11-13 11:24:00 · 645 阅读 · 0 评论 -
PySpark RDD 对多个字段进行groupByKey
Rdd的groupByKey是对(key, value)形式的数据可有时我需要对多个字段进行group操作该如何进行呢 比如(‘2019-01-01’, ‘1’, 1)这样的,对前两个字段进行groupByKey,我们这里将第一个字段名为day_date,第二个gid,第三个num当然可以将rdd变成dataframe然后直接groupBy(‘day_date’, ‘gid’) 但是感觉...原创 2019-01-07 19:34:05 · 12345 阅读 · 2 评论 -
Pyspark UDF自定义函数传多个参数
对于pyspark的dataframe写自定义函数时,需要传多个参数的解决方案原本的UDF函数使用方式:这里udf的作用是 根据dataframe中的一列时间exptime,添加新的一列,此列为exptime未来三天时间的时间序列from pyspark.sql import SparkSessionfrom pyspark.conf import SparkConffrom datet...原创 2019-07-30 15:44:14 · 5036 阅读 · 0 评论 -
Pyspark的Dataframe列名修改的两种方式
有时候用spark的df做聚合操作时,需要重新命名聚合后结果的列名可以用以下两种方式聚合运算后直接输出结果, 列名如下 df_res.agg({'member_name': 'count', 'income': 'sum', 'num': 'sum'}).withColumnRenamed("count(member_name)", "member_num").show()想要把...原创 2019-07-23 10:47:59 · 17655 阅读 · 0 评论 -
pyspark读取和写入mysql
读取mysqlfrom pyspark.sql import SparkSessionfrom pyspark.conf import SparkConffrom pyspark.sql import SQLContextconf = SparkConf().setAppName('数据总览')spark = SparkSession.builder.config(conf=conf)...原创 2019-09-30 11:22:00 · 5816 阅读 · 0 评论