2014年02月_Chuck_lee

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 hadooper-hadoop原理-让你一目了然于心

关于hadoop的原理，可以去很多地方普及，这里不再啰嗦，用图说话。hadoop内部结构：hadoop执行map-reduce流程图：

2014-02-28 15:51:03 1229

原创 hive小贴士-Hive使用小贴士第一期

写在前面的话：如果你已是独步武林的高手，热烈欢迎你分享自己的经验和技巧如果你是初出茅庐的新手，希望小贴士可以起到指点迷津或抛砖引玉的作用，助你一路披荆斩棘成为Hive牛人分区是一个事关重大而新手又容易忽略的问题，在查询中不加分区限制会导致一次遍历所有分区，占用大量服务器资源。所以分区看似简单，却必须多加注意。不同类型的表分区方式有所不同，下面根据表的分类来讲解分区的

2014-02-28 15:41:50 1955 1

原创 hadooper-关于Hadoop的shuffle

我们知道每个reduce task输入的key都是按照key排序的。但是每个map的输出只是简单的key-value而非key-valuelist，所以洗牌的工作就是将map输出转化为reducer的输入的过程。在map结束之后shuffle要做的事情： map的输出不是简单的写入本地文件，而是更多的利用内存缓存和预排序工作，以提高效率。i

2014-02-28 15:35:42 622

转载 hadooper-Hadoop中的各种排序

1：shuffle阶段的排序（部分排序）shuffle阶段的排序可以理解成两部分，一个是对spill进行分区时，由于一个分区包含多个key值，所以要对分区内的按照key进行排序，即key值相同的一串存放在一起，这样一个partition内按照key值整体有序了。第二部分并不是排序，而是进行merge，merge有两次，一次是map端将多个spill 按照分区和分区内的key进行me

2014-02-28 15:31:49 685

原创 Hadooper-Map/Reduce编程模型实现海量数据处理—数字求和

Map/Reduce编程模型型的原理是：利用一个输入key/value pair 集合来产生一个输出的key/value pair 集合。MapReduce库的用户用两个函数表达这个计算：Map 和Reduce。Hadoop Map/Reduce实现主要是通过继承Mapper和Reducer两个抽象类，并实现map和reduce两个方法实现的。Mapper

2014-02-28 09:50:46 1038

原创看看国内互联网公司是怎样定义数据科学家的

阿里巴巴职位描述岗位描述： 数据极客 信仰并热爱大数据。 爱思考，爱钻研，乐于创新 数据技术扎实 从数据中解码本质信息，孵化下一代淘宝1）从大数据中挖掘用户本质属性，并分析用户行为和个性化需求。2）不断挖掘新的用户属性数据并据此产生创新的应用。3）应用先进的统计建模、数据挖掘、机器学习方法建立数据模型解决实际问题，并研发创新方法以解

2014-02-27 18:26:57 1077

原创数据科学家应遵守的十五个原则

作为一个数据科学家，我为我的日常工作总结开发出15项原则，这些是我本人也遵循的： 1、不要用数据说谎或吹牛: 对经验性证据要诚实坦率。最重要的是不要用数据自欺欺人。 2、建立永久工具并分享给他人: 花费一些日常工作时间去建立一些能使自己和他人生活变得轻松的工具（译者补充：我为人人，人人为我）。我们可是该死的人类，我们应该是工具的制造者！

2014-02-27 18:18:21 1370

原创 hadooper-hadoop相关术语

HadoopHadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有着高容错性（fault-t

2014-02-27 18:09:30 1030

转载 hadooper-MapReduce和并行数据库，朋友还是敌人？

在 2010年1月的ACM上，有两篇文章非常吸引人注意。一篇文章是Google的Jeffrey Dean、Sanjay Ghemawat发表的标题为《MapReduce:一个灵活的数据库处理工具》，另一篇文章是Michael Stonebraker、Daniel Abadi、 David J. DeWitt、Sam Madden、Erik Paulson、Andrew Pavlo、Alexand

2014-02-27 18:04:10 1020

转载 hadooper-MapReduce基础

函数式编程概念MapReduce 程序是设计用来并行计算大规模海量数据的，这需要把工作流分划到大量的机器上去，如果组件(component)之间可以任意的共享数据，那这个模型就没法扩展到大规模集群上去了（数百或数千个节点），用来保持节点间数据的同步而产生的通信开销会使得系统在大规模集群上变得不可靠和效率低下。实际上，所有在MapReduce上的数据元素都是不可变的，这就意味着它们

2014-02-27 18:02:20 695

转载 hadooper-Hadoop分布式文件系统

Hadoop介绍Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性（fa

2014-02-27 18:00:28 699

原创 hadooper-Hadoop杂记

namenode（hdfs）+jobtracker（mapreduce）可以放在一台机器上，datanode+tasktracker可以在一台机器上，辅助namenode要单独放一台机器，jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上，一个目录对应一个磁盘)，namenode存储目录需要格式化，datanode存储目录不需要格式化，启动时自动创建同一个

2014-02-27 17:59:08 715

原创 Hive的原理

第一部分：Hive原理为什么要学习Hive的原理•一条Hive HQL将转换为多少道MR作业•怎么样加快Hive的执行速度•编写Hive HQL的时候我们可以做什么•Hive 怎么将HQL转换为MR作业•Hive会采用什么样的优化方式Hive架构&执行流程 Hive执行流程•编译器将一个Hive QL转换操作符•操

2014-02-27 17:55:35 1464

原创 Hive体系结构

第一部分：概念概念•用户接口：用户访问Hive的入口•元数据：Hive的用户信息与表的MetaData•解释器：分析翻译HQL的组件•编译器：编译HQL的组件•优化器：优化HQL的组件第二部分：Hive架构与基本组成架构图基本组成•用户接口，包括 CLI，JDBC/ODBC，WebUI•元数据存储，通

2014-02-27 17:54:32 719

原创 hive 优化

第一部分：Hadoop 计算框架的特性什么是数据倾斜•由于数据的不均衡原因，导致数据分布不均匀，造成数据大量的集中到一点，造成数据热点Hadoop框架的特性•不怕数据大，怕数据倾斜•jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始化的时间是比较长的

2014-02-27 17:53:25 753

原创 Hive Shell 基本操作

第一部分：Hive bin下脚本介绍Hive bin下的脚本介绍Exthivehive-config第二部分：Hive Shell 基本操作Hive 命令行•hive [-hiveconf x=y]* []* [|] [-S]•-i 从文件初始化HQL•-e 从命令行执行指定的HQL• -f 执

2014-02-27 17:51:54 2782

原创 Hive QL

第一部分：ＤＤＬDDL•建表•删除表•修改表结构•创建／删除视图•创建数据库•显示命令建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT tab

2014-02-27 17:51:07 602

原创 Hive 高级编程

第一部分：产生背景产生背景•为了满足客户个性化的需求，Hive被设计成一个很开放的系统，很多内容都支持用户定制，包括：•文件格式：Text File，Sequence File•内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text•用户提供的 map/reduce 脚本：不管什么语言，利用 s

2014-02-27 17:50:05 613

原创 Hive JDBC

第一部分：搭建Hive JDBC开发环境搭建：Steps•新建工程hiveTest•导入Hive依赖的包•Hive 命令行启动Thrift服务•hive --service hiveserver & 第二部分：基本操作对象的介绍Connection•说明：与Hive连接的Connection

2014-02-27 17:49:16 1254

原创 Hive 内建操作符与函数开发

第一部分：关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE

2014-02-27 17:47:32 765

原创 HIVE的安装与配置

Hadoop环境介绍•Hadoop安装路径•/home/test/Desktop/hadoop-1.0.0/•Hadoop 元数据存放目录•/home/test/data/core/namenode•Hadoop 数据存放路径•/home/test/data/core/datanodeHive环境规划•Hive安装路径

2014-02-27 17:45:52 899

原创 HIVE简介

什么是Hive•Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。•本质是将SQL转换为MapReduce程序第二部分：为什么使用Hive面临的问题人员学习成本太高项目周期要求太短我只是需要一个简单的环境 MapReduce 如何搞定

2014-02-27 17:35:20 592

原创 hive参数

hive.exec.max.created.files•说明：所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明：是否为自动分区•默认值：falsehive.mapred.reduce.tasks.speculative.executio

2014-02-27 17:34:17 640

转载未来职业：数据科学家

想要找一个人才缺乏，而且至少在未来5年内仍然有出路的工作？做一个数据科学家吧.至少这是由电视数据服务公司EMC的数据研究专家，做得全球调查得出来的结论。63%的数据专家说这个职业在可预见的未来一直会人员不足——其中半数的数据家认为是非常缺乏。特别是传感器的迅猛发展，那个所谓的”物联网“——将会给各个组织机构带来异常丰富的数据。但是并不是所有的人都有能力把原始数据转变为有用的信息。只

2014-02-25 17:47:57 746

原创推介流量

网站分析实战中有推介流量一说，何为推介流量。我们都知道推介网站来源可以精确的细分成外部推介网站来源和内部推介网站来源。外部推介网站来源非常好理解，即是考量你的网站各种内容在其他网站上的出现力度，不管是外部的友情链接、网址搜录还是各种文字、图片式的广告，哪怕仅仅是一个热心用户传播了你的网站的一篇文章的url，其他用户在其他网站上看到然后顺着链接来到了你的网站。这种访问量来源考验的是你的网站的

2014-02-08 16:50:02 945