自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 大数据学习(二):Hadoop源码分析

概述本文主要从一次完整的Map-Reduce作业提交运行入手分析这个过程中涉及到的Hadoop源码架构,此外本文基于的Hadoop版本是2.6.4总体流程 上图给出了Hadoop在运行一次Map-Reduce作业过程中涉及到的组件交互,其中涉及到的6个进程间交互接口的作用如下: 接口 作用 ApplicationClientProtocol client向ResourceManage

2016-09-24 11:28:44 1034

原创 大数据处理实例——Amazon商品评分&评论(四)

背景在本系列的第二篇中给出了Storm实时处理框架。其中有提到由于后面的离线学习部分都是基于文本的词频向量,因此需要统计非重复单词个数(向量维度)以及为每个单词编号(该单词词频所在列)。本篇就重点介绍自己基于ZK集群的实现方式分析我自己的想法就是在Storm Topolopy的去停用词阶段(StopWordsFilterBolt)为每一个新单词在ZK指定路径上创建一个新的节点。同时启动一个ZK li

2016-09-24 11:06:19 5653 2

原创 大数据处理实例——Amazon商品评分&评论(三)

背景本系列的第二篇中给出了实时预处理部分的总体框架和Storm Topology的实现。在Storm处理之前,由于从Stanford获取的乐器类评价文件(Musical_Instruments_5.json)是某一段时间的全量数据集,所以也提到可以自己写个小应用来模拟实时评论。这里给出几种实现方案。提前知识关于Flume的原理,网上有很多参考资料。在本人的实时处理环境搭建过程中也给出了Flume+K

2016-09-24 09:45:08 3642

原创 大数据处理实例——Amazon商品评分&评论(二)

上一篇已经详细分析了该案例的具体目标,本篇主要介绍实现的总体框架及其中的实时预处理部分。其中实时处理环境的搭建可参见这里总体架构实时预处理1. 准备工作从Stanford的Amazon开源数据上下载Music类商品的评价数据文件Musical_Instruments_5.json, 其中每行数据示例如下:{ "reviewerID": "A2IBPI20UZIR0U", "asin

2016-09-22 16:14:41 5594

原创 SpringSecurity实现登录认证及权限验证

目标在原公司有专门的登录验证和权限管理服务,换公司后在最近项目中需要使用Spring Security自主实现分布式系统的用户验证授权及权限验证功能,因此花了两天时间研究并实现了该方案: 功能点细分: 1. 基于REST请求的登录 2. 用户名密码验证及验证成功后给用户授权 3. http请求的权限配置和验证 4. 方法级别的权限配置和验证 5. 分布式环境中用户权限共享分析及

2016-09-22 15:02:35 41178

原创 大数据处理实例——Amazon商品评分&评论(一)

概述在积累了一定的主流大数据分析工具(Hadoop, Spark, Storm, HBase等)的基础知识后,加之以前学习和工作中积累的机器学习和分布式的相关经验,想着尝试一下自己对一个大数据案例完整的分析实践一遍。因此本文所述观点更多的是对自己这一个多月的大数据知识体系的学习的总结和实践,仅供参考。准备工作一、 案例筛选个人在这一阶段主要考虑了以下几个方面: 数据真实性:无论是自己采集真实数据还

2016-09-22 07:49:17 15390 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除