*大数据
安静平和
这个作者很懒,什么都没留下…
展开
-
大数据创业,数据哪里来?需要跨过几道坎?
这篇文章考虑了很久也没下笔,一方面想写得干货一些,一方面又想写得引人入胜一些,纠结来纠结去,终于决定还是以一个中立的用户角度去写,尽量写得大众化一些。2013年5月10日,在淘宝十周年晚会-马云退休演讲中,马云说:这是一个变化的时代。还有人没搞清楚PC,移动互联网来了;还没搞清楚移动互联网,大数据来了。而变化的时代是年轻人的时代。马云说的这句话很关键,他不仅提到了大数据,而且更是用转载 2015-05-15 13:49:39 · 1011 阅读 · 0 评论 -
斗鱼大数据的玩法
我是吴瑞诚,现在负责斗鱼数据平台部,今天给大家分享一下斗鱼大数据这块的玩法。我先做个自我介绍,我是11年初华科通信硕士毕业就进入淘宝,主要做HBase相关开发,后来回武汉后在1号店转向应用架构方向。我是14年9月加入斗鱼,当时斗鱼研发是30人的规模,从0开始搭建斗鱼大数据平台,单枪匹马一个人,大概干了三个月,招不到大数据开发,哪怕只是基本了解Hadoop的都很招不到,干的很苦。所以转载 2017-08-23 10:53:11 · 1753 阅读 · 0 评论 -
大数据竞赛平台——Kaggle 入门
大数据竞赛平台——Kaggle 入门篇这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文。本文分为两部分介绍Kaggle,第一部分简单介绍Kaggle,第二部分将展示解决一个竞赛项目的全过程。如有错误,请指正!1、Kaggle简介Kaggle是一转载 2016-08-14 14:10:05 · 1194 阅读 · 0 评论 -
数据查询引擎
http://toutiao.com/a6325314922909565186/?tt_from=mobile_qq&utm_campaign=client_share&app=news_article&utm_source=mobile_qq&iid=5368133918&utm_medium=toutiao_ios嘉宾介绍付力力,前百度大数据部资深工程师,神策数据联合创始人&架转载 2016-09-02 09:39:36 · 969 阅读 · 0 评论 -
大数据体系中默认端口
hdfs的通讯端口:9000hdfs的web访问端口:50070zookeeper的通讯端口:2181zookeeper的web访问端口:hbase中HMaster的web访问端口:60010hbase伪分布时HRegionServer的web访问端口:60030hbase伪分布时HRegionServer的通讯端口:60020原创 2016-04-06 21:41:15 · 2054 阅读 · 0 评论 -
HBase Shell 常用命令
下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'转载 2016-08-28 15:52:03 · 702 阅读 · 0 评论 -
Quorum?Quorum!
分布式系统的设计中会涉及到许多的协议、机制用来解决可靠性问题、数据一致性问题等,Quorum 机制就是其中的一种。我们通过分布式系统中的读写模型来简单介绍它。分布式系统中的读写模型 分布式系统是由多个节点(指代一台服务器、存储设备等)构成,由于网络异常、宕机等节点并不能保证正常工作,特别是在节点数量很大的时候,出现异常状况的节点几乎是肯定的。为了保证系统的正常运行,能够提供可转载 2016-08-28 13:43:13 · 1084 阅读 · 0 评论 -
Google论文(1) GFS:Google文件系统 - 思维导图
Google文件系统是一个面向大规模分布式数据密集型应用的可扩展分布式文件系统.这里的思维导图作为个人的读书笔记。 参考资料:《google系列论文》- GFS转载 2016-07-21 13:36:50 · 1409 阅读 · 0 评论 -
Google论文系列(2) MapReduce
思想 map函数:处理一组key/value对进而生成一组key/value对的中间结果 reduce函数:将具有相同Key的中间结果进行归并 实现环境 普通带宽,上千台机器(失败变得正常),廉价硬盘,调度系统。执行过程文件划分master分派map和reduce任务执行map函数中间结果缓存和位置传转载 2016-07-21 13:33:10 · 574 阅读 · 0 评论 -
NewSQL体系比Hadoop更具效率
现今,完全放弃传统关系数据库并忙于使用新兴的NoSQL数据库可能还不是一个合理的选择。相反改进后的SQL(结构化查询语言)系统可能会对一些技术细节进行调整。在8月23日加利福尼亚圣何塞市举行的NoSQL 2011大会上分布式数据库公司VoltDB的首席技术官Michael Stonebraker表达了上述的观点。7 C3 h8 D% b, e2 A: o! DStonebraker所在转载 2016-04-13 20:41:22 · 1412 阅读 · 0 评论 -
深入浅出解析大数据平台架构
目录:什么是大数据Hadoop介绍-HDFS、MR、Hbase大数据平台应用举例-腾讯公司的大数据平台架构“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。大数据的4V特征-来源公司的“大数据”随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:1、业务系统转载 2015-12-19 16:29:43 · 2421 阅读 · 0 评论 -
CDH(Cloudera)与hadoop(Apache)对比
问题导读:1.hadoop有几个版本?2.CDH有几种安装方式?3.CDH在安装认证方面做了什么改变?Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribut转载 2015-12-19 11:41:23 · 17919 阅读 · 5 评论 -
数据挖掘与机器学习的区别
数据挖掘和机器学习的区别和联系,周志华有一篇很好的论述《机器学习和数据挖掘》可以帮助大家理解。数据挖掘受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。简言之,对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学往往醉心于理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后转载 2015-11-19 12:29:24 · 1293 阅读 · 0 评论 -
Hive启动时,遇到java.net.URISyntaxException: Relative path in absolute URI
异常详情如下:Exception in thread "main" java.lang.RuntimeException: java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: ${system:java.io.tmpdir%7D/$%7Bsystem:转载 2015-07-23 02:00:11 · 3947 阅读 · 0 评论 -
集群间 Hive 数据 迁移 问题
1、 从hive中导出数据至本地目录 insert overwrite local directory '/export/tmp' select * from test1 where create_time = '2013-11-25'; 列数据之间默认以^A隔开。 2、将本地数据上传另一个集群的hdfs转载 2015-08-02 13:25:00 · 2001 阅读 · 0 评论 -
分布式数据库数据一致性原理说明与实现
1数据一致性1.1 数据一致性是什么大部份使用传统关系型数据库的DBA在看到“数据一致性”时,第一反应可能都是数据在跨表事务中的数据一致性场景。但是本文介绍的“数据一致性”,指的是“数据在多份副本中存储时,如何保障数据的一致性”场景。由于在大数据领域,数据的安全不再由硬件来保证,而是通过软件手段,通过同时将数据写入到多个副本中,转载 2017-10-26 21:50:33 · 925 阅读 · 0 评论