Hadoop
文章平均质量分 78
关山难越_谁悲失路之人
这个作者很懒,什么都没留下…
展开
-
法律网推荐(二) 用Pig进行数据预处理
上接法律网推荐(一) 用Hive进行数据探索分析 3)数据预处理 1. 数据清洗 2. 数据变换 3. 属性规约通过上述网址类型分布分析,后续分析中,选取其中占比最多的两类(咨询内容页、知识内容页)进行模型分析。可以发现一些与分析目标无关的数据清洗规则:实验内容:数据清原创 2016-12-24 21:06:00 · 1038 阅读 · 0 评论 -
flume流(二)如何在hadoop集群中安装flume流?(待补充图片)
二、如何在hadoop集群中安装flume流?1)将下载的flume包上传到/usr/local,解压到/usr/local目录中tar –zxvf apache-flume-1.6.0-bin.tar.gz -C /usr/localls后看到apache-flume-1.6.0-bin2)修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置原创 2016-12-24 21:09:39 · 609 阅读 · 0 评论 -
flume流(三)如何用flume流从本地传输文件到hdfs?
flume流有三篇文章一、flume流是什么?.properties文件内部应该怎么写?二、如何在hadoop集群中安装flume流?三、如何用流从本地传输文件到hdfs??本篇讲解如何用流从本地传输文件到hdfs??1.新建/flume_data目录,在该目录下新建名为2014的文件夹,将law_utf8.csv文件放入flume_demo中,与2014文原创 2016-12-24 18:06:35 · 2027 阅读 · 0 评论 -
基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统(一) 协同过滤算法概述&&基于模型的协同过滤的算法思想(算法模型和结构待补充)
本文基于Spark MLlib平台实现一个向用户推荐电影的简单应用。其中,主要包括三部分内容:一、协同过滤算法概述二、基于模型的协同过滤应用---电影推荐三、实时推荐架构分析一、协同过滤算法概述 关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电原创 2016-12-24 16:53:02 · 2256 阅读 · 0 评论 -
基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统(三) 作业里的拓展
20161205spark第四次作业使用Spark ALS explicit训练,得到模型,并进行评价;要求:1. 代码(只需要保留评价代码,建模代码,数据分割代码即可);2. 相关图表(建模截图(包含参数)、评价截图、不同k值precesion、recall表格及图);3. 测试数据集保留不超过10个用户即可;4. 不同模型对比(1,2,3再做一遍,对比,可选)原创 2016-12-24 21:21:32 · 1723 阅读 · 0 评论 -
基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统(二)代码实现
上接基于Spark MLlib平台和基于模型的协同过滤算法的电影推荐系统(一)1. 设置不打印一堆INFO信息(减少打印量 保证Shell页面清晰干净) sc.setLogLevel("WARN")2. 导入相关recommendation包中相关类,加载数据,并解析到RDD【Rating】对象①导入相关recommendation包,原创 2016-12-24 21:15:43 · 2060 阅读 · 0 评论 -
我的小锦囊之Hadoop集群的启动命令以及经常遇到的小问题
每天启动Hadoop集群时都会打开这份txt文档,现在看来觉得这份文档才是精髓,看一眼,就能理一遍思路。如下的命令中,有启动Hadoop集群的,zookeeper集群的,hbase的,启动spark的,当然还有像Pig、Hive这些,直接输入就能进入。总之,如果没有下面这个文档,每天遇到一些问题可能会毛手毛脚,甚至可能因为睡得懵懵的而忘了启动路径....1.启动hadoop集群原创 2016-12-29 09:30:51 · 839 阅读 · 0 评论