自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(25)
  • 资源 (30)
  • 收藏
  • 关注

原创 hadooper-hadoop原理-让你一目了然于心

关于hadoop的原理,可以去很多地方普及,这里不再啰嗦,用图说话。hadoop内部结构:hadoop执行map-reduce流程图:

2014-02-28 15:51:03 1229

原创 hive小贴士-Hive使用小贴士第一期

写在前面的话:如果你已是独步武林的高手,热烈欢迎你分享自己的经验和技巧如果你是初出茅庐的新手,希望小贴士可以起到指点迷津或抛砖引玉的作用,助你一路披荆斩棘成为Hive牛人分区是一个事关重大而新手又容易忽略的问题,在查询中不加分区限制会导致一次遍历所有分区,占用大量服务器资源。所以分区看似简单,却必须多加注意。不同类型的表分区方式有所不同,下面根据表的分类来讲解分区的

2014-02-28 15:41:50 1955 1

原创 hadooper-关于Hadoop的shuffle

我们知道每个reduce task输入的key都是按照key排序的。      但是每个map的输出只是简单的key-value而非key-valuelist,所以洗牌的工作就是将map输出转化为reducer的输入的过程。      在map结束之后shuffle要做的事情:      map的输出不是简单的写入本地文件,而是更多的利用内存缓存和预排序工作,以提高效率。i

2014-02-28 15:35:42 622

转载 hadooper-Hadoop中的各种排序

1:shuffle阶段的排序(部分排序)shuffle阶段的排序可以理解成两部分,一个是对spill进行分区时,由于一个分区包含多个key值,所以要对分区内的按照key进行排序,即key值相同的一串存放在一起,这样一个partition内按照key值整体有序了。第二部分并不是排序,而是进行merge,merge有两次,一次是map端将多个spill 按照分区和分区内的key进行me

2014-02-28 15:31:49 685

原创 Hadooper-Map/Reduce编程模型实现海量数据处理—数字求和

Map/Reduce编程模型型的原理是:利用一个输入key/value pair 集合来产生一个输出的key/value pair 集合。MapReduce库的用户用两个函数表达这个计算:Map 和Reduce。Hadoop Map/Reduce实现主要是通过继承Mapper和Reducer两个抽象类,并实现map和reduce两个方法实现的。Mapper

2014-02-28 09:50:46 1038

原创 看看国内互联网公司是怎样定义数据科学家的

阿里巴巴职位描述岗位描述: 数据极客 信仰并热爱大数据。 爱思考, 爱钻研,乐于创新 数据技术扎实 从数据中解码本质信息,孵化下一代淘宝1) 从大数据中挖掘用户本质属性,并分析用户行为和个性化需求。2) 不断挖掘新的用户属性数据并据此产生创新的应用。3) 应用先进的统计建模、数据挖掘、机器学习方法建立数据模型解决实际问题,并研发创新方法以解

2014-02-27 18:26:57 1077

原创 数据科学家应遵守的十五个原则

作为一个数据科学家,我为我的日常工作总结开发出15项原则,这些是我本人也遵循的:    1、不要用数据说谎或吹牛: 对经验性证据要诚实坦率。最重要的是不要用数据自欺欺人。    2、建立永久工具并分享给他人: 花费一些日常工作时间去建立一些能使自己和他人生活变得轻松的工具(译者补充:我为人人,人人为我)。我们可是该死的人类,我们应该是工具的制造者!

2014-02-27 18:18:21 1370

原创 hadooper-hadoop相关术语

HadoopHadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性(fault-t

2014-02-27 18:09:30 1030

转载 hadooper-MapReduce和并行数据库,朋友还是敌人?

在 2010年1月的ACM上,有两篇文章非常吸引人注意。一篇文章是Google的Jeffrey Dean、Sanjay Ghemawat发表的标题为《MapReduce:一个灵活的数据库处理工具》,另一篇文章是Michael Stonebraker、Daniel  Abadi、 David J. DeWitt、Sam Madden、Erik Paulson、Andrew Pavlo、Alexand

2014-02-27 18:04:10 1020

转载 hadooper-MapReduce基础

函数式编程概念MapReduce 程序是设计用来并行计算大规模海量数据的,这需要把工作流分划到大量的机器上去,如果组件(component)之间可以任意的共享数据,那这个模型就没 法扩展到大规模集群上去了(数百或数千个节点),用来保持节点间数据的同步而产生的通信开销会使得系统在大规模集群上变得不可靠和效率低下。实际上,所有在MapReduce上的数据元素都是不可变的,这就意味着它们

2014-02-27 18:02:20 695

转载 hadooper-Hadoop分布式文件系统

Hadoop介绍Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fa

2014-02-27 18:00:28 699

原创 hadooper-Hadoop杂记

namenode(hdfs)+jobtracker(mapreduce)可以放在一台机器上,datanode+tasktracker可以在一台机器上,辅助namenode要单独放一台机器,jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上,一个目录对应一个磁盘),namenode存储目录需要格式化,datanode存储目录不需要格式化,启动时自动创建同一个

2014-02-27 17:59:08 715

原创 Hive的原理

第一部分:Hive原理为什么要学习Hive的原理•一条Hive HQL将转换为多少道MR作业•怎么样加快Hive的执行速度•编写Hive HQL的时候我们可以做什么•Hive 怎么将HQL转换为MR作业•Hive会采用什么样的优化方式Hive架构&执行流程 Hive执行流程•编译器将一个Hive QL转换操作符•操

2014-02-27 17:55:35 1464

原创 Hive体系结构

第一部分:概念 概念•用户接口:用户访问Hive的入口•元数据:Hive的用户信息与表的MetaData•解释器:分析翻译HQL的组件•编译器:编译HQL的组件•优化器:优化HQL的组件第二部分:Hive架构与基本组成架构图基本组成•用户接口,包括 CLI,JDBC/ODBC,WebUI•元数据存储,通

2014-02-27 17:54:32 719

原创 hive 优化

第一部分:Hadoop 计算框架的特性什么是数据倾斜•由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点Hadoop框架的特性•不怕数据大,怕数据倾斜•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的

2014-02-27 17:53:25 753

原创 Hive Shell 基本操作

第一部分:Hive bin下脚本介绍Hive bin下的脚本介绍Exthivehive-config第二部分:Hive Shell 基本操作Hive 命令行•hive [-hiveconf x=y]* []* [|] [-S]•-i   从文件初始化HQL•-e   从命令行执行指定的HQL• -f   执

2014-02-27 17:51:54 2782

原创 Hive QL

第一部分:DDLDDL•建表•删除表•修改表结构•创建/删除视图•创建数据库•显示命令建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name   [(col_name data_type [COMMENT col_comment], ...)]   [COMMENT tab

2014-02-27 17:51:07 602

原创 Hive 高级编程

第一部分:产生背景产生背景•为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括:•文件格式:Text File,Sequence File•内存中的数据格式: Java Integer/String, Hadoop  IntWritable/Text•用户提供的 map/reduce 脚本:不管什么语言,利用 s

2014-02-27 17:50:05 613

原创 Hive JDBC

第一部分:搭建Hive JDBC开发环境搭建:Steps•新建工程hiveTest•导入Hive依赖的包•Hive  命令行启动Thrift服务•hive --service hiveserver &        第二部分:基本操作对象的介绍Connection•说明:与Hive连接的Connection

2014-02-27 17:49:16 1254

原创 Hive 内建操作符与函数开发

第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE

2014-02-27 17:47:32 765

原创 HIVE的安装与配置

Hadoop环境介绍•Hadoop安装路径•/home/test/Desktop/hadoop-1.0.0/•Hadoop 元数据存放目录•/home/test/data/core/namenode•Hadoop 数据存放路径•/home/test/data/core/datanodeHive环境规划•Hive安装路径

2014-02-27 17:45:52 899

原创 HIVE简介

什么是Hive•Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。•本质是将SQL转换为MapReduce程序  第二部分:为什么使用Hive面临的问题  人员学习成本太高  项目周期要求太短  我只是需要一个简单的环境  MapReduce  如何搞定

2014-02-27 17:35:20 592

原创 hive参数

hive.exec.max.created.files•说明:所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明:是否为自动分区•默认值:falsehive.mapred.reduce.tasks.speculative.executio

2014-02-27 17:34:17 640

转载 未来职业:数据科学家

想要找一个人才缺乏,而且至少在未来5年内仍然有出路的工作?做一个数据科学家吧.至少这是由电视数据服务公司EMC的数据研究专家,做得全球调查得出来的结论。63%的数据专家说这个职业在可预见的未来一直会人员不足——其中半数的数据家认为是非常缺乏。特别是传感器的迅猛发展,那个所谓的”物联网“——将会给各个组织机构带来异常丰富的数据。但是并不是所有的人都有能力把原始数据转变为有用的信息。只

2014-02-25 17:47:57 746

原创 推介流量

网站分析实战中有推介流量一说,何为推介流量。我们都知道推介网站来源可以精确的细分成外部推介网站来源和内部推介网站来源。外部推介网站来源非常好理解,即是考量你的网站各种内容在其他网站上的出现力度,不管是外部的友情链接、网址搜录还是各种文字、图片式的广告,哪怕仅仅是一个热心用户传播了你的网站的一篇文章的url,其他用户在其他网站上看到然后顺着链接来到了你的网站。这种访问量来源考验的是你的网站的

2014-02-08 16:50:02 945

计算机操作系统全部资料

计算机操作系统全部资料计算机操作系统全部资料计算机操作系统全部资料

2011-11-23

离散数学复习题.doc

离散数学复习题.doc离散数学复习题.doc离散数学复习题.doc

2011-11-23

数字逻辑期末复习试题20套

数字逻辑期末复习试题20套数字逻辑期末复习试题20套数字逻辑期末复习试题20套

2011-11-23

清华大学-数据结构(课件+习题+课后答案).

清华大学-数据结构(课件+习题+课后答案).清华大学-数据结构(课件+习题+课后答案).

2011-11-23

编译原理实验+编译原理.rar

编译原理实验+编译原理.rar 编译原理实验+编译原理.rar 编译原理实验+编译原理.rar

2011-11-23

概率论与数理统计(2006冲刺

概率论与数理统计(2006冲刺)复习题,好好看看吧。

2011-11-23

黑龙江大学计算机学院学生管理系统

黑龙江大学计算机学院学生管理系统,开发了针对jsp的学生管理系统。

2011-11-23

程序员智商测试

程序员智商测试小程序,很有意思,欢迎下载闯关哦

2011-11-23

Java程序员上班那点事儿

Java程序员上班那点事儿,书籍,帮助那些想从事Java研发方向的人找到方向和方法。

2011-11-23

野村综研面经

野村综研面经野村综研面经野村综研面经,详细介绍了一些大神面试野村综研的详细介绍

2011-11-23

野村综研2011校园招聘大礼包_备战野村综研2011校园招聘

野村综研2011校园招聘大礼包_备战野村综研2011

2011-11-23

数据库试题

数据库试题,为即将参加期末考试或者数据库相关考试的学生提供一些资源,复习资料,内附答案。

2011-11-23

Java开发书籍汇总

Java开发书籍汇总,介绍所有可能在Java开发中的所有书籍。并提供了书名,及介绍。很详细。

2011-11-23

数据库原理实验全套源码_DBMS模拟环境_VC6源码

数据库原理实验全套源码_DBMS模拟环境_VC6源码,当中把数据库课程设计的所有知识都进行了代码实现,希望学习数据库存在疑惑的下载,运行分析代码后得到一定的启发。

2011-11-23

C++指针使用方法解惑

C++指针使用方法解惑,doc文档,对c++指针做了详细的方法介绍,有存在C++指针有疑惑的可以下载来参考下。

2011-11-23

操作系统文件管理源代码

操作系统文件管理源代码 实现了计算机操作系统的课程设计内容,需要做课程设计的学生可以作为参考。

2011-11-23

黑莓8700的软件

黑莓8700的软件

2010-11-01

黑莓8700的软件

黑莓8700的软件

2010-11-01

java程序

java程序

2010-11-01

java应用程序150例

资源为java编程的一些基础范例,非常适合初学者编程学习,有想要的下载吧·

2010-01-09

java资料课程设计

非常适合初学者使用的java资料,欢迎下载

2010-01-09

c++学生信息管理系统c++学生信息管理系统

c++学生信息管理系统c++学生信息管理系统c++学生信息管理系统c++学生信息管理系统

2009-07-02

c++学生信息管理系统

c++学生信息管理系统c++学生信息管理系统c++学生信息管理系统c++学生信息管理系统c++学生信息管理系统

2009-07-02

很好的一个c++编写的学生信息管理系统

很好的一个c++编写的学生信息管理系统 很好的一个c++编写的学生信息管理系统 很好的一个c++编写的学生信息管理系统

2009-06-24

很好的一个c++编写的学生信息管理系统

很好的一个c++编写的学生信息管理系统 很好的一个c++编写的学生信息管理系统 很好的一个c++编写的学生信息管理系统

2009-06-24

学生信息管理系统,用C++编写的,希望对你有帮助

很好的一个c++编写的学生信息管理系统 很好的一个c++编写的学生信息管理系统

2009-06-24

JavaScriptt课件

很好的一款课件,对学习JavaScript很有帮助的。

2009-05-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除