- 博客(9)
- 资源 (4)
- 收藏
- 关注
转载 大数据分析:机器学习算法实现的演化
我将会对机器学习算法的不同的实现范式进行讲解,既有来自文献中的,也有来自开源社区里的。首先,这里列出了目前可用的三代机器学习工具。传统的机器学习和数据分析的工具,包括SAS,IBM的SPSS,Weka以及R语言。它们可以在小数据集上进行深度分析——工具所运行的节点的内存可以容纳得下的数据集。第二代机器学习工具,包括Mahout,Pentaho,以及RapidMiner。
2015-02-27 17:27:22 1458
原创 大数据技术
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。主要可分为:数据采集,数据存取,基础架构,数据处理,统计分析,数据挖掘,模型预测,结果呈现等8种技术。大数据技术主要形成了批处理、流处理和交互分析三种计算模式:离线批处理(Batch Processing)技术以MapReduce和Hadoop系统为代表,实时流处理(Stream
2015-02-27 17:15:53 875
转载 近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)
留着慢慢看:转自:http://developer.51cto.com/art/201501/464174_all.htm编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。《Brief History of Machine Learning》介绍:这是一篇介绍机
2015-02-27 17:05:56 1593
转载 hadoop CDH4.4上Impala集群安装
hadoop-001 10.168.204.55 state-store, catalog, impaladhadoop-002 10.168.204.56 impaladhadoop-003 10.168.204.57 impaladhadoop-004 10.168.204.58 impalad版本: impala 1.2
2015-02-26 11:13:30 743
转载 Impala入门笔记(转载)
问题背景:1. 初步了解Impala的应用2. 重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍写作目的:1. 了解Impala的安装过程2. 初步了解Impala的使用3. 比较Impala与Hive的性能测试适合阅读对象:1. 想了解Impala安装的读者2. 想了解Impala与Hive性能比较的读
2015-02-26 11:08:28 533
转载 Hadoop常用命令
1.查看Hadoop版本hadoop version2.Hadoop2.0 kill任务命令mapred job -kill 任务ID3.hadoop banlancerhadoop balancer -threshold 10-threshold:HDFS达到平衡状态的磁盘使用率偏差值。如果机器与机器之间磁盘使用率偏差小于10%,就认为HDFS集群已经达到了平衡的状态
2015-02-11 15:10:01 605
原创 hive与pig的重要区别是什么?
我们知道hive、pig都提供了一种脚本语法,便于我们快速构建mapreduce任务,不同的是hive的语法类似sql,而pig的语法类似于shell,请教各位同学,它们两个的重要区别是什么?另外在具体应用时,这两个工具又应该如何选择?我感觉Hive和Pig本质上应该是没有区别的,都是建立在hadoop之上对数据进行处理和分析得到想要结果,区别:1、hive 是一个类似sql语法的数据语言
2015-02-06 15:43:33 4179
转载 hive使用案例
用hive来进行日志分析有一段时间了,这里简要记录下我使用UDF和存储与导出hsql结果的实现方式,以供参考。(一)UDF 开发与使用案例 1、创建Maven工程,开发UDF(基于hadoop2.2.0+hive-0.12.0)。[html] view plaincopydependencies> dep
2015-02-06 15:33:17 564
数据治理知识体系.xmind
2021-01-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人