大数据
redis_v
这个作者很懒,什么都没留下…
展开
-
初识Hadoop
Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google File System,google公司为了存储海量搜索数据而设计的专用文件系原创 2016-03-04 09:54:43 · 1017 阅读 · 0 评论 -
从Hadoop到Spark的架构实践
当下,Spark已经在国内得到了广泛的认可和支持:2014年,Spark Summit China在北京召开,场面火爆;同年,Spark Meetup在北京、上海、深圳和杭州四个城市举办,其中仅北京就成功举办了5次,内容更涵盖Spark Core、Spark Streaming、Spark MLlib、Spark SQL等众多领域。而作为较早关注和引入Spark的移动互联网大数据综合服务公司,Ta转载 2016-03-04 10:43:14 · 2302 阅读 · 0 评论 -
跨行业的数据挖掘流程
跨行业数据挖掘标准流程(CRISP-DM ,cross-industry standard process for datamining) 此数据挖掘过程模型于1999年欧盟机构联合起草。通过近几年的发展,CRISP-DM模型在各种数据挖掘过程模型中占据领先位置,采用量达到近60%。本文简单的介绍了CRISP-DM,参考信息主要源自维基百科及其所注的链接。CRIS-DM模型如下: 主要过程转载 2016-06-12 09:17:56 · 1217 阅读 · 0 评论