Spark
朱健强ZJQ
这个作者很懒,什么都没留下…
展开
-
Python写的Spark示例,报错与解决方法
spark运行环境参考:https://blog.csdn.net/max_cola/article/details/78902597对应的环境变量:#javaexport JAVA_HOME=/usr/local/jdk1.8.0_181 export PATH=$JAVA_HOME/bin:$PATH#pythonexport PYTHON_HOME=/usr/local...原创 2018-09-18 09:57:59 · 3556 阅读 · 0 评论 -
wordcount 统计单词数量并按照数量排序
需求,从文件中读取单词,计算单词的数量,并按照数量从大到小排序。文件内容wc.txttom jerryhenry jimsuse lusy aaa bbbccc ddd aaa eeeccc eeetom jimhenry jimjim tom代码内容:import org.apache.log4j.{Level, Logger}import ...原创 2019-02-25 18:29:09 · 1118 阅读 · 1 评论 -
aggregate1 scala
实验aggreagte的方法import org.apache.spark.{SparkConf, SparkContext}import org.apache.log4j.{Level, Logger}object aggregate1 { Logger.getLogger("org").setLevel(Level.ERROR) def main(args: Array[S...原创 2019-02-02 15:13:22 · 174 阅读 · 0 评论 -
aggregate2 scala
实验aggregate方法的作用import org.apache.spark.{SparkConf, SparkContext}import org.apache.log4j.{Level, Logger}object aggregate2 { Logger.getLogger("org").setLevel(Level.ERROR) def main(args: Array...原创 2019-02-02 15:05:58 · 138 阅读 · 0 评论 -
wordCount scala
用scala写的wordCountimport org.apache.spark.{SparkConf, SparkContext}import org.apache.log4j.{Level, Logger}object wordCount { Logger.getLogger("org").setLevel(Level.ERROR) def main(args: Array...原创 2019-02-02 14:51:24 · 390 阅读 · 0 评论 -
2018北京积分落户数据,用pyspark、pyecharts大数据可视化分析,按用户所在省份分析
2018北京积分落户数据,用pyspark、pyecharts大数据可视化分析,按用户所在省份分析。#导入积分落户人员名单数据df = spark.read.csv('jifenluohu.csv', header='true', inferSchema='true')df.cache()df.createOrReplaceTempView("jflh")#df.show()spC...原创 2018-10-20 13:31:02 · 631 阅读 · 0 评论 -
2018北京积分落户数据,用pyspark、pyecharts大数据可视化分析,按用户分数分析
2018北京积分落户数据,用pyspark、pyecharts大数据可视化分析,按用户分数分析。#导入积分落户人员名单数据df = spark.read.csv('jifenluohu.csv', header='true', inferSchema='true')df.cache()df.createOrReplaceTempView("jflh")#df.show()spCou...原创 2018-10-20 13:27:25 · 925 阅读 · 0 评论 -
2018北京积分落户数据,用pyspark、pyecharts大数据可视化分析,按用户星座分析
2018北京积分落户数据,用pyspark、pyecharts大数据可视化分析,按用户星座分析。按用户数量升序。#导入积分落户人员名单数据df = spark.read.csv('jifenluohu.csv', header='true', inferSchema='true')df.cache()df.createOrReplaceTempView("jflh")#df.sh...原创 2018-10-20 12:03:01 · 349 阅读 · 0 评论 -
2018北京积分落户数据,用pyspark、pyecharts大数据可视化分析,按用户生肖分析
2018北京积分落户数据,用pyspark、pyecharts大数据可视化分析,按用户生肖分析。排序是按照用户数量升序。#导入积分落户人员名单数据df = spark.read.csv('jifenluohu.csv', header='true', inferSchema='true')df.cache()df.createOrReplaceTempView("jflh")#d...原创 2018-10-20 12:00:12 · 790 阅读 · 3 评论 -
2018北京积分落户数据,用pyspark、pyecharts大数据可视化分析,按用户年龄分析
2018北京积分落户数据,用pyspark、pyecharts大数据可视化分析,按用户年龄分析。#导入积分落户人员名单数据df = spark.read.csv('jifenluohu.csv', header='true', inferSchema='true')df.cache()df.createOrReplaceTempView("jflh")#df.show()spCou...原创 2018-10-20 11:56:00 · 645 阅读 · 0 评论 -
2018北京积分落户数据,用pyspark、pyecharts大数据可视化分析,按用户所在单位分析
2018北京积分落户数据,用pyspark、pyecharts大数据可视化分析,按用户所在单位分析。按用户所在单位分组统计,取前50个。#导入积分落户人员名单数据df = spark.read.csv('jifenluohu.csv', header='true', inferSchema='true')df.cache()df.createOrReplaceTempView("j...原创 2018-10-20 11:42:37 · 759 阅读 · 0 评论 -
用spark分析北京积分落户数据,按用户身份证所在省份城市分析
加载刚才解析json格式存储而成的csv文件。按用户身份证所在省份城市分析#导入积分落户人员名单数据sqlContext = SQLContext(sc)df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('jifenluohu....原创 2018-10-16 10:50:19 · 459 阅读 · 0 评论 -
用spark分析北京积分落户数据,按用户分数分析
按用户分数分析#导入积分落户人员名单数据sqlContext = SQLContext(sc)df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('jifenluohu.csv')#print(df)df.createOrRepl...原创 2018-10-15 19:53:04 · 650 阅读 · 0 评论 -
用spark分析北京积分落户数据,按用户年龄、生肖、星座分析
加载刚才解析json格式存储而成的csv文件。按用户年龄分析#导入积分落户人员名单数据sqlContext = SQLContext(sc)df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('jifenluohu.csv')#...原创 2018-10-15 19:41:57 · 415 阅读 · 0 评论 -
用spark分析北京积分落户数据,整理北京积分落户名单数据成csv格式
读取json文件格式数据,整理导出成csv格式import json,csv#加载数据def loadData(): with open('jifenluohu.json', 'r') as f: data = json.load(f) rows = data['rows'] with open("jifenluohu.csv", "w"...原创 2018-10-15 17:45:35 · 622 阅读 · 0 评论 -
用spark分析北京积分落户数据,按用户所在单位分析
加载刚才解析json格式存储而成的csv文件。按用户所在单位分析#导入积分落户人员名单数据sqlContext = SQLContext(sc)df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('jifenluohu.csv')...原创 2018-10-15 18:46:55 · 502 阅读 · 0 评论 -
scala spark数据去重实验
目标:读取文件数据,去重,排序输出数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次实验文件file1.txt2012-3-1 a2012-3-2 b2012-3-3 c2012-3-4 d2012-3-5 a2012-3-6 b2012-3-7 c2012-3-3 cfile2.txt2012-3-1 b2012-3-2 a2...原创 2019-03-02 17:00:41 · 2406 阅读 · 0 评论