大数据
文章平均质量分 71
迪塔维
这个作者很懒,什么都没留下…
展开
-
大数据应用的几个实际案例
“大数据”的经典定义是可以归纳为4个V:海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。 大数据首先要考虑的应该是“大”——海量的数据规模。谷歌执行董事长艾瑞克.施密特曾说,现在全球每两天所创造的数据量等同于从人类文明至2003年间产生的数据量的总和。而具体到企业应用领域,漫无边际、浩如烟转载 2014-01-03 13:27:16 · 2291 阅读 · 0 评论 -
hive实现txt数据导入,理解hadoop中hdfs、mapreduce
背景:通过hive操作,了解hadoop的hdfs、mapreduce。场景:hadoop双机集群、hive版本:hadoop和hive的版本搭配最和谐的是什么,目前没有定论,每种版本的搭配都会有一些bug出现。 本例中版本:hadoop-1.0.3 hive-0.10.0-bin实现:将本地的网络访问日志文件导入到hive中。hive demo comm原创 2014-02-13 16:52:47 · 5650 阅读 · 1 评论 -
数据仓库的大数据集成
集成策略数据集成是指将来源于不同系统的数据组合在一起,供业务用户研究不同的行业行为及客户行为的数据处理方式。在数据集成应用早期,数据仅限于交易系统及其应用。业务决策的制定以决策平台为指导,而有限的数据集提供了创建决策平台的基础。数据容量与数据类型在过去三十年里大幅增长,数据仓库技术从无到有,基础架构和技术的发展满足了分析和数据存储需求。这一切彻底改变了数据集成的前景。传统数据集转载 2014-02-15 12:29:06 · 2172 阅读 · 3 评论 -
Hadoop-Nutch学习整理(持续更新)
Nutch学习整理第一部分 单机尝试1、安装部署Nutch的部署和其他Hadoop生态产品的部署流程基本相似:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类似资料,不再赘述。Nutch的配置文件主要有两个:domain-urlfilter.txt 是用来配置所爬取网站的范围,域名和它的子网页的正则表达式,类似于爬取规则。一般配置为:原创 2014-11-25 15:39:57 · 836 阅读 · 0 评论 -
通过ambari来搭建hadoop集群(1)
准备环境192.168.80.10 Master Master.Hadoop192.168.80.11 Slave1 Slave1.Hadoop192.168.80.12 Slave2 Slave2.Hadoop三台机器均为Centos_x64_6.5 Master主节点配置4G内存 另两台Slave配置为2G内存由于通过在线安装的方式未能安装成功,转换思路将在本地建yum源的原创 2014-12-25 19:51:00 · 1847 阅读 · 0 评论 -
大数据可视化小结
南京迪塔维对数据可视化的需求正急剧增长。一部分原因是更多的公司正在寻求通过对大数据分析来获得可视化的业务洞察力。大数据的可视化个人认为还是以仪表盘为展现的最终载体,当然仪表盘会包含移动端、云端和企业端。那么,仪表盘中的内容应该包含哪些?1、单纯的数字展示大数据的最终分析结果,其中有一种是对关键指标的计算结果,如:市场模糊占有率,总体情感指数,用户粘度原创 2014-02-06 00:20:56 · 5445 阅读 · 0 评论