Hadoop开发实例
小江_xiaojiang
这个作者很懒,什么都没留下…
展开
-
用Hadoop构建电影推荐系统
转载出处:http://blog.fens.me/hadoop-mapreduce-recommend/前言Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发了各种网站“推荐”热,个性时代已经到来。目录推荐系统概述需求分析:推荐系统指标设计转载 2015-05-05 19:48:38 · 1190 阅读 · 0 评论 -
用Mahout构建职位推荐引擎
转载出处:http://blog.fens.me/hadoop-mahout-recommend-job/前言随着大数据思想实施的落地,推荐系统也开始倍受关注。不光是电商,各种互联网应用都开始应用推荐系统,像搜索,社交网络,音乐,餐饮,地图服务等等。在以前,我们没有使用推荐算法的时候,我们是通过设置各种约束条件,匹配数据的自然属性呈现给用户,这种就是基于规则的系统。转载 2015-05-05 19:57:51 · 722 阅读 · 0 评论 -
用Mahout构建图书推荐系统
转载出处:http://blog.fens.me/hadoop-mahout-recommend-book/前言本文是Mahout实现推荐系统的又一案例,用Mahout构建图书推荐系统。与之前的两篇文章,思路上面类似,侧重点在于图书的属性如何利用。本文的数据在自于Amazon网站,由爬虫抓取获得。目录项目背景需求分析数据说明算法模型程序开转载 2015-05-05 20:00:08 · 1058 阅读 · 0 评论 -
基于Hive的海量Web日志分析
1.背景1.1 黑马论坛日志,数据分为两部分组成,原来是一个大文件,是56GB;以后每天生成一个文件,大约是150-200MB之间;1.2 日志格式是apache common日志格式;1.3 分析一些核心指标,供运营决策者使用;1.4 开发该系统的目的是分了获取一些业务相关的指标,这些指标在第三方工具中无法获得的; 2.开发步骤2.1 把日志数据上传到HDFS中进行处转载 2015-05-06 22:21:22 · 3034 阅读 · 0 评论 -
电信运营商LBS应用,分析手机用户移动轨迹
转载: http://www.cnblogs.com/UUhome/p/4339582.html案例需求这是一个处理基站数据的场景。基站数据被抽象成两个文件,分别是以“NET”开头和“POS”开头的文件。一个是记录用户的移动位置,另一个是记录用户的上网数据。任务是从大量的这些数据中提取出用户的移动轨迹,也就是用户到了哪些基站,分别停留了多久。有了这些数据,就可以勾勒出用户的移动轨迹原创 2015-05-05 19:30:16 · 4326 阅读 · 1 评论 -
基于MapReduce的海量Web日志分析
转载出处:http://blog.fens.me/hadoop-mapreduce-log-kpi/前言Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。大型或超大型的网站,可能每小时就会产生10G的数据量。对于日志的这种规模的数据转载 2015-05-05 09:05:37 · 4445 阅读 · 0 评论 -
分析用户的访问偏好
本文主要介绍了在Hadoop平台下统计分析Web用户的访问偏好,项目流程如下图所示:数据采集 项目流程中,提取用户访问页面的URL和URL对应的正文内容,由本人在公司参与一起开发的爬虫系统爬取相应门户网站(新浪)上的数据。爬虫核心代码见我的另一篇文章:httpclient使用详解(爬虫) 爬虫的框架使用的是java多线程开发,由于数据时效性不是很强,所以并没有原创 2016-04-05 14:19:26 · 7138 阅读 · 2 评论