自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (4)
  • 收藏
  • 关注

原创 开源数据源

世界卫生组织开源数据:http://www.who.int/research/en/

2015-02-27 17:29:47 503

转载 大数据分析:机器学习算法实现的演化

我将会对机器学习算法的不同的实现范式进行讲解,既有来自文献中的,也有来自开源社区里的。首先,这里列出了目前可用的三代机器学习工具。传统的机器学习和数据分析的工具,包括SAS,IBM的SPSS,Weka以及R语言。它们可以在小数据集上进行深度分析——工具所运行的节点的内存可以容纳得下的数据集。第二代机器学习工具,包括Mahout,Pentaho,以及RapidMiner。

2015-02-27 17:27:22 1458

原创 大数据技术

大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。主要可分为:数据采集,数据存取,基础架构,数据处理,统计分析,数据挖掘,模型预测,结果呈现等8种技术。大数据技术主要形成了批处理、流处理和交互分析三种计算模式:离线批处理(Batch Processing)技术以MapReduce和Hadoop系统为代表,实时流处理(Stream

2015-02-27 17:15:53 875

转载 近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)

留着慢慢看:转自:http://developer.51cto.com/art/201501/464174_all.htm编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。《Brief History of Machine Learning》介绍:这是一篇介绍机

2015-02-27 17:05:56 1593

转载 hadoop CDH4.4上Impala集群安装

hadoop-001     10.168.204.55  state-store, catalog, impaladhadoop-002     10.168.204.56  impaladhadoop-003     10.168.204.57  impaladhadoop-004     10.168.204.58  impalad版本: impala 1.2

2015-02-26 11:13:30 743

转载 Impala入门笔记(转载)

问题背景:1. 初步了解Impala的应用2. 重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍写作目的:1. 了解Impala的安装过程2. 初步了解Impala的使用3. 比较Impala与Hive的性能测试适合阅读对象:1. 想了解Impala安装的读者2. 想了解Impala与Hive性能比较的读

2015-02-26 11:08:28 533

转载 Hadoop常用命令

1.查看Hadoop版本hadoop version2.Hadoop2.0 kill任务命令mapred job -kill 任务ID3.hadoop banlancerhadoop balancer -threshold 10-threshold:HDFS达到平衡状态的磁盘使用率偏差值。如果机器与机器之间磁盘使用率偏差小于10%,就认为HDFS集群已经达到了平衡的状态

2015-02-11 15:10:01 605

原创 hive与pig的重要区别是什么?

我们知道hive、pig都提供了一种脚本语法,便于我们快速构建mapreduce任务,不同的是hive的语法类似sql,而pig的语法类似于shell,请教各位同学,它们两个的重要区别是什么?另外在具体应用时,这两个工具又应该如何选择?我感觉Hive和Pig本质上应该是没有区别的,都是建立在hadoop之上对数据进行处理和分析得到想要结果,区别:1、hive 是一个类似sql语法的数据语言

2015-02-06 15:43:33 4179

转载 hive使用案例

用hive来进行日志分析有一段时间了,这里简要记录下我使用UDF和存储与导出hsql结果的实现方式,以供参考。(一)UDF 开发与使用案例 1、创建Maven工程,开发UDF(基于hadoop2.2.0+hive-0.12.0)。[html] view plaincopydependencies>          dep

2015-02-06 15:33:17 564

华为数据之道知识总结.xmind

华为数据之道知识总结.xmind

2021-02-22

数据治理知识体系.xmind

数据治理涉及组织体系、标准体系、流程体系、评价体系、技术体系几方面的内容,主要包含:元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理等内容。

2021-01-31

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

2016-01-22

《医学信息决策与支持系统》题库

《医学信息决策与支持系统》题库,最完整的医学决策练习题。

2014-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除