走在前往架构师的路上

专注于分布式计算,大数据,数据挖掘,机器学习算法等领域的研究

网络新闻评论观点挖掘系统实现

前言 网络新闻观点挖掘系统事实上本质是属于文本数据挖掘范畴的,对于文本挖掘的方式,在早期主要是基于Web文本挖掘领域的。当然这个挖掘的尺度是可以控制的,粗粒度的挖掘相对于细粒度的挖掘要简单不少,粗粒度挖掘可以快速的多数网民们对某新闻的观点倾向,这也是我毕设作品所需要达到的目标。 系统设计目标 平时...

2015-05-31 21:06:31

阅读数:3302

评论数:2

Storm系统架构以及代码结构学习

前言 什么是storm,storm是做什么的,一个简单的描述,你可以理解为是一个“准实时”的Hadoop,Hadoop是专门做的是离线数据处理,而storm则弥补了Hadoop在这方面的不足,他是一个实时数据处理的平台。至于Storm的各种由来,就不一一在这里废话了,之前我写的某篇文章讲述了部分的...

2015-05-24 21:13:53

阅读数:3501

评论数:1

腾讯新闻评论数据爬取

前言 鉴于最近在做观点挖掘的相关工作,观点的数据源是网络评论数据,于是第一个想到的就是新闻观点数据,一个热门的新闻可能一晚上就会有上万条评论,所以如何分析并利用好这些评论信息,将会是一件非常有意思的事情,观点挖掘是我研究的目的,当然要想很好解决这个问题,所以我自然要解决数据源的问题,于是乎,我就想...

2015-05-17 22:28:00

阅读数:4470

评论数:1

HBase简单介绍

前言 本周学习了部分关于Hadoop生态圈周边的一些系统,简单的做个小结,本篇文章主要讲的是HBase的介绍。HBase是一个在HDFS上构建的面向列的分布式数据库,他与传统的RDBMS还是有许多的不同之处的。HBase的出现可以解决海量数据存储的问题,而且他可以比较容易的解决伸缩性的问题,这个...

2015-05-10 20:46:28

阅读数:1692

评论数:0

Hadoop性能优化点小结

最近一段时间看了许多Hadoop性能优化相关的资料,于是花了点时间整理了一下,希望给正在苦于Hadoop集群性能问题的博友们一点建议吧。 1、Hadoop在存储有输入数据的节点上运行map任务,可以获得最佳性能,称为“数据本地化优化“,所以一般会设置最大分片的大小应该与块大小相同,如果分片跨越2...

2015-05-04 20:57:10

阅读数:5877

评论数:0

提示
确定要删除当前文章?
取消 删除