数据科学
文章平均质量分 67
Fantastic_Liar
一个90后程序猿,数据分析师
展开
-
XX学校毕业生就业情况分析
2018届通信学院毕业生就业情况分析今天拿到了上一届师兄们的就业情况表,就想着做个关于就业的统计分析。花了3个小时做整个分析的构思、设计和实现,也算是费尽心思了吧!如果本文章有任何设计到侵犯个人隐私的情况,请立即联系本人18883287680@163.com,本人承诺马上删除。读取文件import pandas as pdimport matplotlib.pyplot as p...原创 2018-08-24 22:57:25 · 2552 阅读 · 6 评论 -
基于Spark-ALS的协同过滤算法推荐系统
最简单的推荐系统,起到抛砖引玉的作用,各位看官见谅!使用的是MovieLens里面的ml-100k的范例数据集。path="hdfs://localhost:9000/user/fantastic_liar/"rawUserData=sc.textFile(path+"data/u.data")rawUserData.count()100000# 用户id,项目id,评价,日期时...原创 2018-08-25 13:15:05 · 1662 阅读 · 0 评论 -
RDD基本命令
sc.master'local[*]'create RDD demointRDD=sc.parallelize([3,1,2,5,6])intRDD.collect()[3, 1, 2, 5, 6]stringRDD=sc.parallelize(["Apple","Orange","Banana","Grape","Apple"])stringRDD.co...原创 2018-08-25 13:17:51 · 720 阅读 · 0 评论 -
Python讲解MapReduce过程
用Python讲解MapReduce使用python写map.py和reduce.py两个脚本,详细讲解mapreduce整个流程。(本地运行、hadoop集群上利用hadoop-streaming.jar运行)map.py代码import sysfor line in sys.stdin: word_list=line.strip().split(" ") for...原创 2018-08-25 13:20:27 · 5418 阅读 · 0 评论