大数据
Multi-Domain
持之以恒
展开
-
数据挖掘知识
近来在读谭磊的《New Internet dashuj 》原创 2014-04-23 14:52:21 · 818 阅读 · 0 评论 -
Hadoop组成
如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper、Flume)。Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化、非结构化等)的能力。但这与之前有什么不同?现今企业数据仓库和关系型数据库擅长处理结转载 2014-06-09 20:21:18 · 756 阅读 · 1 评论 -
Hadoop之关键技术(二)--- MapReduce
MapReduce采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各分节点共同完成,然后通过整个各分节点的中间结果,得到最终的结果。简单的说,MapReduce就是“任务的分解与结果的汇总”。上述处理过程被MapReduce高度地抽象成为两个函数:map和reduce,map负责把任务分解成多个任务,reduce复制把分解后的多任务处理的结果汇总起来。需要注意的是,用Map原创 2014-06-13 00:04:59 · 1704 阅读 · 0 评论 -
Hadoop之关键技术(一)----HDFS
作为Hadoop的核心技术之一,HDFS(HadoopDistributed File System,Hadoop分布式文件系统)是分布式计算中数据存储管理的基础。它所具有的高容错高可靠性、高扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储。HDFS是一个主/从(Master/Slave)体系结构。HDFS集群有一个NameNode和一些DataNode。NameNode管理文件原创 2014-06-11 23:35:31 · 2839 阅读 · 0 评论 -
Hadoop之关键技术(三)--HBase
传统的关系型数据库很好地满足了以银行交易为代表的事务性业务环境。当人们迈入需要面对非结构化数据构成的数据洪流的全新时代是,传统的关系型数据库已经不能满足需求。在这样的背景下,一HBase为代表的NoSQL数据库成为大数据处理领域的新秀。这里的NoSQL并不是摒弃传统关系型数据库以及SQL,其含义更多是指Not only SQL,即超越传统的关系型数据库。NoSQL的主要思路是在阻碍关系型数据库适应原创 2014-06-14 02:13:37 · 1575 阅读 · 0 评论 -
PageRank算法浅析
很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念。前几天趁团队outing的机会,在动车上看了一些相关的资料(PS:在动车上看看书真是一种享受),趁热打铁,将所看的东西整理成此文。本文首先会讨论搜索引擎的核心难题,同时讨论早期搜索引擎关于结果页面重要性评价算法的困境,借此引出PageRank产生的背景。第二部分会详细讨论PageRank的思想来源、基础转载 2014-07-06 16:59:00 · 681 阅读 · 0 评论 -
Hadoop之关键技术(四)--Zookeeper
ZooKeeper是由一组ZooKeeper服务器构成的系统。客户端连接到一台ZooKeeper服务器上,使用并维护一个TCP连接,通过这个连接发送请求,接受响应、获取观察事件及心跳。如果这个TCP连接中断,客户端将尝试连接到另外的ZooKeeper服务器。客户端第一次连接到ZooKeeper服务时,接受这个连接的ZooKeeper服务器会为这个客户端建立一个会话,当这个客户端连接到另外的服务器是翻译 2014-06-20 02:33:52 · 1040 阅读 · 0 评论 -
数据挖掘10大算法简介
转自:国际权威的学术组织theIEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, NaiveBayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种转载 2014-07-15 23:53:02 · 815 阅读 · 0 评论