2015年02月_数据文字工作者

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创开源数据源

世界卫生组织开源数据：http://www.who.int/research/en/

2015-02-27 17:29:47 503

转载大数据分析：机器学习算法实现的演化

我将会对机器学习算法的不同的实现范式进行讲解，既有来自文献中的，也有来自开源社区里的。首先，这里列出了目前可用的三代机器学习工具。传统的机器学习和数据分析的工具，包括SAS，IBM的SPSS，Weka以及R语言。它们可以在小数据集上进行深度分析——工具所运行的节点的内存可以容纳得下的数据集。第二代机器学习工具，包括Mahout，Pentaho，以及RapidMiner。

2015-02-27 17:27:22 1458

原创大数据技术

大数据技术是指从各种各样类型的巨量数据中，快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。主要可分为：数据采集，数据存取，基础架构，数据处理，统计分析，数据挖掘，模型预测，结果呈现等8种技术。大数据技术主要形成了批处理、流处理和交互分析三种计算模式：离线批处理（Batch Processing）技术以MapReduce和Hadoop系统为代表，实时流处理（Stream

2015-02-27 17:15:53 875

转载近200篇机器学习&深度学习资料分享（含各种文档，视频，源码等）

留着慢慢看：转自：http://developer.51cto.com/art/201501/464174_all.htm编者按：本文收集了百来篇关于机器学习和深度学习的资料，含各种文档，视频，源码等。而且原文也会不定期的更新，望看到文章的朋友能够学到更多。《Brief History of Machine Learning》介绍:这是一篇介绍机

2015-02-27 17:05:56 1593

转载 hadoop CDH4.4上Impala集群安装

hadoop-001 10.168.204.55 state-store, catalog, impaladhadoop-002 10.168.204.56 impaladhadoop-003 10.168.204.57 impaladhadoop-004 10.168.204.58 impalad版本: impala 1.2

2015-02-26 11:13:30 743

转载 Impala入门笔记（转载）

问题背景：1. 初步了解Impala的应用2. 重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍写作目的：1. 了解Impala的安装过程2. 初步了解Impala的使用3. 比较Impala与Hive的性能测试适合阅读对象：1. 想了解Impala安装的读者2. 想了解Impala与Hive性能比较的读

2015-02-26 11:08:28 533

转载 Hadoop常用命令

1.查看Hadoop版本hadoop version2.Hadoop2.0 kill任务命令mapred job -kill 任务ID3.hadoop banlancerhadoop balancer -threshold 10-threshold：HDFS达到平衡状态的磁盘使用率偏差值。如果机器与机器之间磁盘使用率偏差小于10%，就认为HDFS集群已经达到了平衡的状态

2015-02-11 15:10:01 605

原创 hive与pig的重要区别是什么？

我们知道hive、pig都提供了一种脚本语法，便于我们快速构建mapreduce任务，不同的是hive的语法类似sql，而pig的语法类似于shell，请教各位同学，它们两个的重要区别是什么？另外在具体应用时，这两个工具又应该如何选择？我感觉Hive和Pig本质上应该是没有区别的，都是建立在hadoop之上对数据进行处理和分析得到想要结果，区别：1、hive 是一个类似sql语法的数据语言

2015-02-06 15:43:33 4179

转载 hive使用案例

用hive来进行日志分析有一段时间了，这里简要记录下我使用UDF和存储与导出hsql结果的实现方式，以供参考。（一）UDF 开发与使用案例 1、创建Maven工程，开发UDF（基于hadoop2.2.0+hive-0.12.0)。[html] view plaincopydependencies> dep

2015-02-06 15:33:17 564

华为数据之道知识总结.xmind

2021-02-22

数据治理知识体系.xmind

数据治理涉及组织体系、标准体系、流程体系、评价体系、技术体系几方面的内容，主要包含：元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理等内容。

2021-01-31

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

2016-01-22

《医学信息决策与支持系统》题库

《医学信息决策与支持系统》题库，最完整的医学决策练习题。

2014-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人