大数据
文章平均质量分 53
oLevin
这个作者很懒,什么都没留下…
展开
-
大数据处理的一般模式
从数据采集、清洗、整合、分析挖掘、打标签 都是这个模式数据采集、清洗、整 合、分析挖掘、打标签到应用的一站式数据处理。原创 2015-09-15 13:56:59 · 942 阅读 · 0 评论 -
免费的大数据平台CDH和HDP都是啥?
转载:http://www.open-open.com/lib/view/open1453201603261.html以Apache Hadoop为主导的大数据技术的出现,使得中小型公司对于大数据的存储与处理也拥有了武器。目前Hadoop有不少发行版:华为发行版 收费 、Intel发行版 收费 、Cloudera发行版(Cloudera’s Distribution Includi转载 2016-11-07 15:37:59 · 31836 阅读 · 0 评论 -
大数据到底什么,大数据科普
转载:https://yq.aliyun.com/articles/57136我们还是具体说说,为什么需要大数据吧。看起来是有点多此一举,不是很明白吗!?有价值。我们需要讲到问题的核心,大数据对于企业,就是提高效率、提升竞争力的;对于社会,可以拯救生命,造福人类。国家提出了互联网+的概念,其实我们仔细想想,其核心是 大数据+ 。现在比较高大上的无人驾驶、基因测序、智能交通、人工智能等其核心转载 2016-07-05 20:03:16 · 3252 阅读 · 0 评论 -
盘点九种引人瞩目的开源大数据技术
越来越多的公司开始聚焦于大数据技术领域,而开源恰恰是大数据技术的灵魂。以下将为您介绍九大引人注目的开源大数据技术,请拭目以待:1.Apache Hadoop Apache hadoop是一个开源的分布式计算框架,最初由Doug为支持其开源Web搜索引擎Nutch所创立。通过集成MapReduce技术,Hadoop将大数据分布到多个数据节点上进行处理。Had转载 2016-07-12 19:17:08 · 681 阅读 · 1 评论 -
MLlib算法简介
http://blog.csdn.net/yangbutao/article/details/44977565之前Mahout或者自己写的MR来解决复杂的机器学习,导致效率低,spark特别适合迭代式的计算,这正是机器学习算法训练所需要的,MLlib是基于spark之上算法组件,基于spark平台来实现。主要的机器学习的算法目前在MLlib中都已经提供了,分类回归、聚类转载 2016-06-27 20:35:06 · 1281 阅读 · 0 评论 -
Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
http://www.cnblogs.com/shishanyuan/p/4747761.html1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往转载 2016-06-27 20:37:26 · 935 阅读 · 0 评论 -
Spark入门(Python版)
http://blog.jobbole.com/86232/Spark是什么?既然设置好了Spark,现在我们讨论下Spark是什么。Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。如果你熟悉Hadoop,那么你知道分布式计算框架要解决两个问题:如何分发数据和如何分发计算。Hadoop使用HDFS来解决分布式数据问题,MapR转载 2016-06-27 20:22:06 · 729 阅读 · 0 评论 -
机器学习之分类聚类
http://www.doc88.com/p-903565625668.html转载 2016-06-27 19:43:29 · 442 阅读 · 0 评论 -
数据挖掘18大经典算法
http://www.d1net.com/bigdata/news/337153.html本文所有涉及到的数据挖掘代码的都放在了我的github上了。地址链接: https://github.com/linyiqun/DataMiningAlgorithm大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖转载 2016-06-27 19:00:27 · 885 阅读 · 0 评论 -
机器学习笔记目录
http://blog.csdn.net/junxinsiwo/article/details/20572225朴素贝叶斯分类K最邻近算法(K-Nearest Neighbor,KNN)(初探)线性回归和逻辑回归(初探)Topic Model线性感知机和SVM(初探)聚类(初探)关联规则挖掘转载 2016-06-27 18:56:33 · 362 阅读 · 0 评论 -
could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) running
主机报错:[hadoop@Master files]$ hdfs dfs -put file3.txt /input16/11/22 19:17:45 WARN hdfs.DFSClient: DataStreamer Exceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException): File /input/fil原创 2016-11-22 19:20:17 · 3290 阅读 · 0 评论