大数据
youzhouliu
目前供职于深圳某AI科技公司,从事人工智能相关工作,对Java、Python有深入研究。
展开
-
星环科技创始人兼CTO孙元浩:现代数据仓库的技术演变和关键特性
摘要:星环科技创始人兼CTO孙元浩详细介绍了逻辑数据仓库需具备的特性:数据、计算均分布化;对多种关系数据库和Hadoop数据源进行交叉查询,聚合,以及关联操作等能力;混合负载和多租户SLA管理能力。【CSDN现场报道】2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安转载 2015-12-12 21:20:33 · 2316 阅读 · 0 评论 -
Hadoop源码分析之心跳机制
一.心跳机制1. hadoop集群是master/slave模式,master包括Namenode和Jobtracker,slave包括Datanode和Tasktracker。2. master启动的时候,会开一个ipc server在那里,等待slave心跳。3. slave启动时,会连接master,并每隔3秒钟主动向master发送一个“心跳”,这个时间可 以通过”转载 2017-02-19 11:56:26 · 499 阅读 · 0 评论 -
MapReduce工作原理图文详解
1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程 正文: 1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图: 流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要原创 2017-02-19 16:03:58 · 174 阅读 · 0 评论 -
ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台
日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷,性能安全性,从而及时采取措施纠正错误。通常,日志被分散的储存不同的设备上。如果你管理数十上百台服务器,你还在使用依次登录每台机器的传统方法查阅日志。这样是不是感觉很繁琐和效率低下。当务之急我们使用集中化的日志管理,例如:开转载 2017-02-23 17:26:52 · 1020 阅读 · 0 评论 -
Hadoop中HDFS工作原理
Hadoop其实并不是一个产品,而是一些独立模块的组合。主要有分布式文件系统HDFS和大型分布式数据处理库MapReduce。由于目前主要用到HDFS,所以这里看一下它的工作原理,以及相应的介绍下配置。什么是HDFS?Hadoop Distributed File System,字面意思,Hadoop分布式文件系统,通俗的讲,就是可以将不同节点的设备用来存储。它分为两个部分:NameNode和转载 2017-02-16 10:41:32 · 639 阅读 · 0 评论 -
传统的行存储和(HBase)列存储的区别
1 为什么要按列存储列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的区别就是如何组织表(翻译不好,直接抄原文了):Ø Row-based storage stores atable in a sequence of rows.Ø Column-based storag转载 2017-03-28 10:42:34 · 27493 阅读 · 5 评论 -
行存储和列存储的区别
列存储不同于传统的关系型数据库,其数据在表中是按行存储的,列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,一个字段的数据聚集存储,那就更容易为这种聚集存储设计更好的压缩/解压算法。传统的行存储和列存储的区别 1、数据是按行存储的 2、没转载 2017-03-28 10:51:51 · 19780 阅读 · 0 评论 -
大数据存取的选择:行存储还是列存储?
目前大数据存储有两种方案可供选择:行存储和列存储。业界对两种存储方案有很多争持,集中焦点是:谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。从目前发展情况看,关系数据库已经不适应这种巨大的存储量和计算要求,基本是淘汰出局。在已知的几种大数据处理软件中,Hadoop的HBase采用列存储,MongoDB是文档型的行存储,Lexst是二进制型的行存储。在这里,我不讨论这些软件的技术和优缺点,只围转载 2017-03-28 11:29:42 · 1255 阅读 · 0 评论 -
【Hadoop】HDFS的运行原理
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。转载 2017-03-21 14:46:05 · 561 阅读 · 0 评论 -
hadoop 2.7伪分布安装
hadoop 2.7的“伪”分式安装与“全”分式安装相比,大部分操作是相同的,主要区别在于不用配置slaves文件,而且其它xxx-core.xml里的参数很多也可以省略,下面是几个关键的配置:(安装JDK、创建用户、设置SSH免密码 这些准备工作,大家可参考hadoop 2.6全分布安装 一文,以下所有配置文件,均在$HADOOP_HOME/etc/hadoop目录下)另外,原创 2017-03-11 20:14:51 · 607 阅读 · 0 评论 -
浅析Hadoop中的数据倾斜
在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算的(一般能用SQL表述的) 数据切分转载 2017-03-31 14:02:46 · 1313 阅读 · 4 评论 -
用通俗易懂的大白话讲解Map/Reduce原理
Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.这里详细分解这里面的概念让大家通过这篇文章了解到底是什么hadoop:转载 2016-10-11 17:24:26 · 717 阅读 · 0 评论 -
MapReduce(一): Hadoop的简单配置运行
1.1.1 集群规划节点名Ip地址安装路径主端口监控端口NameNode192.168.74.103/opt/hdfs/Hadoop-1.1.2900050070DataNode192.168.74.104/op转载 2016-10-11 17:27:18 · 904 阅读 · 0 评论 -
残差学习,152层网络,微软夺冠2015 ImageNet计算机视觉识别挑战
摘要:该研究团队还使用了一个“残差学习”原则来指导神经网络结构的设计。“残差学习”最重要的突破在于重构了学习的过程,并重新定向了深层神经网络中的信息流,很好地解决了此前深层神经网络层级与准确度之间的矛盾。美国东部时间2015年12月10日,微软亚洲研究院视觉计算组在2015 ImageNet计算机识别挑战赛中凭借深层神经网络技术的最新突破,以绝对优势获得图像分类、图像定位以及图像检测全转载 2015-12-12 20:43:00 · 2698 阅读 · 0 评论 -
未来的认知工作负载需要全新的IT基础架构
摘要:2015中国大数据技术大会12月10日在北京新云南皇冠假日酒店盛大开幕,IBM副总裁、大中华区硬件系统部总经理郭仁声发表了主题为《未来的认知 工作负载需要全新的IT基础架构》的演讲。【CSDN现场报道】2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分转载 2015-12-13 21:34:55 · 1461 阅读 · 0 评论 -
如何使用HBase构建NewSQL?
摘要:本文是刘奇在SDCC 2015数据库实践论坛上分享的《HBase分布式事务与SQL实现》主题内容。文中分享了Goolge Percolator内部实现、雅虎的OMID实现、TiDB的内部架构、技术选型以及如何使用HBase构建NewSQL。本文是刘奇在SDCC 2015数据库实践论坛上分享的《HBase分布式事务与SQL实现》主题内容。目前主流的数据库或者NoSQL要么在转载 2015-12-13 22:47:16 · 1362 阅读 · 0 评论 -
华为徐兴海、区波:面向业务创新的大数据平台及商业实践
摘要:BDTC 2015全体会议上午最后一场由华为IT产品线大数据解决方案规划总监徐兴海和华为电信软件大数据首席技术规划区波共同完成,期间他们表示,华为正在以平台牵引应用和服务合作的方式致力于大数据生态体系构建。【CSDN现场报道】2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协转载 2015-12-13 10:37:13 · 1978 阅读 · 0 评论 -
从量子加密到机器学习,盘点2015阿里云开放的黑科技
摘要:由于云计算应用的不断深入,以及对大数据处理需求的不断扩大,用户要求功能丰富、性能强大、高可用性的产品,云计算厂商们也推陈出新,不断地推出新产品,本文就盘点了业内翘楚阿里云在2015年那些有价值的新产品。作为云计算产业热土的中国,2015年产业规模依旧保持高速增长,且国内的公有云服务领域有几十家企业在角逐,经过几年的发展,目前市场逐渐明朗,有些公有云企业已经遥遥领先,而有些企业很可转载 2015-12-18 21:16:22 · 1541 阅读 · 0 评论 -
你们是不是很缺大数据工程师?
00 缘起 之所以有这个话题,是因为周末加班中午吃饭与一个同行朋友聊起了这个话题,之后再细细地结合一些其他接触的东西,确实是有些感触的。并且对于行业的一些现状,也的确有些自己的看法,对不对先不论,这玩意儿也没有对错之分,每个人都有自己想法,当然也包括我博客虫了。所以,有些东西、有些想法我还是愿意分享出来的,畅所欲言吧~~BigData01 我转载 2015-12-22 20:25:56 · 1386 阅读 · 3 评论 -
25个Java机器学习工具&库
摘要:本问总结了25个Java机器学习工具&库:Weka集成了数据挖掘工作的机器学习算法、面向数据流挖掘的流行开源框架(MOA)、新型的柔性工作流引擎ADAMS、基于Java的面向文本文件的机器学习工具包Mallet等。本列表总结了25个Java机器学习工具&库:1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。We转载 2015-12-25 21:42:48 · 1632 阅读 · 0 评论 -
常见的大数据术语名词解释(中英对照)
大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解。其中部分定义参考了相应的博客文章。当然,这份术语表并没有100%包含所有的术语。A聚合(Aggregation) – 搜索、合并、显示数据的过程。算法(Algorithms) – 可以完成某种数据分析的数学公式。分析法(Analyt原创 2016-06-14 14:19:12 · 8098 阅读 · 0 评论 -
java程序调用hive查询的一个异常
最近在java程序中调用hive做查询时,碰到一个异常,被困扰了许久,经过几番调试,逐步把问题定位清楚。在异常描述前先给出异常信息:java.sql.SQLException: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.原创 2016-08-24 14:39:23 · 2941 阅读 · 1 评论 -
Hadoop中HDFS工作原理
Hadoop其实并不是一个产品,而是一些独立模块的组合。主要有分布式文件系统HDFS和大型分布式数据处理库MapReduce。由于目前主要用到HDFS,所以这里看一下它的工作原理,以及相应的介绍下配置。什么是HDFS?Hadoop Distributed File System,字面意思,Hadoop分布式文件系统,通俗的讲,就是可以将不同节点的设备用来存储。它分为两个部分:NameNode和转载 2016-10-09 14:06:56 · 502 阅读 · 0 评论 -
hadoop的关键进程
hadoop集群中主要进程有master: NameNode, ResourceManager,slaves: DataNode, NodeManager, RunJar, MRAppMaster,YarnChild其中 RunJar, MRAppMaster,YarnChild与随着某个job的创建而创建,随着job的完成而终止。它们的作用分别是:RunJar:完成转载 2017-05-15 14:39:11 · 1017 阅读 · 0 评论