
大数据
文章平均质量分 75
will的成长之路
个人成长记录
展开
-
大数据(八) - Sqoop
Sqoop是什么 Sqoop:SQL-to-Hadoop 连接 传统关系型数据库 和 Hadoop 的桥梁 把关系型数据库的数据导入到 Hadoop 系统 ( 如 HDFS HBase 和 Hive) 中; 把数据从 Hadoop 系统里抽取并导出到关系型数据库里。 利用Map原创 2016-01-18 07:12:01 · 2362 阅读 · 0 评论 -
《hive编程指南》阅读笔记摘要(八)
第9章 模式设计1、按天划分的表建议使用分区表2、HDFS namenode会将所有的文件系统的元数据信息加载到内存中3、hive没有主键或基于序列秘钥生成的自增键的概念4、为了避免分区中数据不均的问题,可以用另一种数据分管的技术:分桶create table weblog(user_id int, url string, source_id string)pa原创 2017-04-08 14:55:00 · 990 阅读 · 0 评论 -
《hive编程指南》阅读笔记摘要(九)
第10章 调优一个hive任务会包含有一个或多个阶段stage,不同的stage间有依赖关系。一、分析复杂的或者执行效率低的查询时,可以使用explain语句,如explain select .....;二、explain extended可以产生更多的输出信息explain extended select ......;三、优化limit:对输出结果有影响,慎原创 2017-04-10 22:37:42 · 1329 阅读 · 0 评论 -
《hive编程指南》阅读笔记摘要(五)
第6章 HiveQL:查询查询字段是数组类型的元素数据select name, subordinates[0] from employees;查询字段是map类型的元素数据select name, deductions["state taxes"] from employees;查询字段是struct类型的元素数据select name, address.city from原创 2017-03-24 09:56:07 · 1251 阅读 · 0 评论 -
《hive编程指南》阅读笔记摘要(四)
第5章 HiveQL:数据操作既然hive没有行级别的增删改操作,那么往表中装载数据的唯一途径就是“大量”的数据装载操作,或者通过其他方式仅仅将文件写到正确的目录下。一、装载数据LOAD DATA LOCAL INPATH '${env:HOME}/california-employees' OVERWRITE INTO TABLE employeesPARTITION (co原创 2017-03-22 23:00:05 · 1032 阅读 · 0 评论 -
《hive编程指南》阅读笔记摘要(三)
第四章 HiveQL:数据定义hive中的数据库本质上只是表的一个目录或者命名空间,用来组织表hive有一个默认的数据库default,如果没有显式地指定数据库,默认是default库创建数据库create database if not exists test;显示所有数据库show databases;show databases like 't*';原创 2017-03-21 22:44:38 · 1275 阅读 · 0 评论 -
《hive编程指南》阅读笔记摘要(二)
第三章 数据类型和文件格式hive中的数据类型包括基本数据类型和集合数据类型(array、map、struct),通常,关系型数据库中没有集合数据类型,而是用关系表关联表示集合。原因在于:hive中将相关数据存储在一起,来减少磁盘寻址操作,提高性能。基本数据类型都是对java中接口的实现,所以类型的具体行为细节和java中对应的类型完全一致,如string类型实现的就是java中S原创 2017-03-20 21:42:42 · 1250 阅读 · 0 评论 -
《hive编程指南》阅读笔记摘要(一)
第一二章 基础知识、基础操作hive的缺点1、hive不支持记录级别的增删改操作,但是用户可以通过查询生成新表或者将查询结果导入到文件中。2、Hive的查询延时很严重,因为MapReduce job的启动过程消耗很长时间,所以不能用在交互查询系统中。3、hive不支持事务。hive最适合做数据仓库HiveQL不符合ansi sql标准,和mysq原创 2017-03-19 15:29:36 · 3692 阅读 · 0 评论 -
大数据系列文章汇总 - 更新到15篇
大数据(一) - hadoop生态系统及版本演化大数据(二) - HDFS大数据(三) - YARN大数据(四) - MapReduce大数据(五) - HBase大数据(六) - ZooKeeper大数据(七) - Flume大数据(八) - Sqoop大数据(九) - Hive大数据(十) - Pig大数据(十一)原创 2016-01-31 20:25:30 · 9958 阅读 · 2 评论 -
大数据(一) - hadoop生态系统及版本演化
HDFS:分布式存储系统(Hadoop Distributed File System):提供了高可靠性、高扩展性和高吞吐率的数据存储服务 HDFS源自于Google的GFS论文 (发表于2003年10月 ),是GFS克隆版YARN:资源管理系统(Yet Another Resource Negotiator):负责集群资源的统一管理和调度,Hadoop 2.0新增系原创 2016-01-11 20:30:22 · 13604 阅读 · 0 评论 -
《hive编程指南》阅读笔记摘要(六)
第7章 HiveQL:视图1、视图不像表一样会存储数据,hive目前不支持物化视图。2、当一个查询引用一个视图时,这个视图定义的查询语句会和用户的查询语句组合在一起,然后供hive制定查询计划。可以认为,hive先执行这个视图,然后使用这个结果进行余下后续的查询。3、hive查询语句中含有多层嵌套是很常见的。嵌套查询可以使用一个视图代替。4、使用视图来限制基于条件过滤的数据:把视图原创 2017-04-04 09:43:02 · 1013 阅读 · 0 评论 -
《hive编程指南》阅读笔记摘要(七)
第8章 HiveQL:索引1、hive只有有限的索引功能。2、explain命令可以查看某个查询语句是否用到了索引3、创建索引create index employees_indexon table employees(country)as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'原创 2017-04-05 21:55:58 · 1207 阅读 · 0 评论 -
scala基础
摘自《big data analytics with spark》scala基础虽然scala包含了面向对象编程和函数式编程的能力,但是他更侧重函数式编程。写spark程序,只会用到一点点scala的基本功能,所以只需要学一点点scala就可以了。自带的类型:这些都是类,scala没有类似int、long这样的基本数据类型翻译 2017-11-18 19:08:54 · 2997 阅读 · 0 评论 -
大数据(六) - ZooKeeper
Zookeeper是什么 是一个针对大型分布式系统的可靠协调系统; 提供的功能包括:配置维护、名字服务、分布式同步、组服务等; 目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户; Zookeeper已经成为Hadoop生态系统中的基础组件。Zookeeper特点原创 2016-01-17 22:38:43 · 5092 阅读 · 0 评论 -
大数据(十四) - Storm
storm是一个分布式实时计算引擎storm/Jstorm的安装、配置、启动几乎一模一样storm是twitter开源的storm的特点storm支持热部署,即时上限或下线app可以在storm上使用各种编程语言如clojure、java、ruby、python等本地模式:storm有一个本地模式,可以在处理过程中完全模拟storm集群,便于开发和测试。原创 2016-01-23 15:51:25 · 3458 阅读 · 0 评论 -
大数据(十) - Pig
Pig是什么 Hadoop上的数据流执行引擎(由Yahoo!开源) 利用HDFS存储数据 利用MapReduce处理数据 使用Pig Latin语言表达数据流 Pig Latin是一种新的数据流语言 Pig将Pig Latin语原创 2016-01-19 06:30:38 · 5461 阅读 · 0 评论 -
大数据(十三) - Azkaban
Azkaban基本架构Azkaban使用方式 REST API WEB UI 用户权限管理 提交作业流 查看作业流运行进度Azkaban作业流表达方式 每个作业描述对应一个“.job”文件 支持Shel原创 2016-01-22 13:45:28 · 2247 阅读 · 0 评论 -
大数据(十五) - JStorm
JStorm 是一个分布式实时计算引擎,是淘宝开源的随着Storm 的规模越来越大,发现原有的很多Storm设计,只能适合小集群中运行,当集群规模超过100台时,均会出现一些或这或那的问题。JStorm 比Storm更稳定,更强大,更快, Storm上跑的程序,一行代码不变可以运行在JStorm上。storm/Jstorm的安装、配置、启动几乎一模一样从应用的角度,JStorm原创 2016-01-23 16:04:34 · 5031 阅读 · 0 评论 -
大数据(二) - HDFS
HDFS优点 高容错性 数据自动保存多个副本 副本丢失后,自动恢复 适合批处理 移动计算而非数据 数据位置暴露给计算框架 适合大数据处理 GB、TB、甚至PB级数据 百万规模以上的文件数量原创 2016-01-12 21:53:44 · 10685 阅读 · 0 评论 -
大数据(三) - YARN
YARN是资源管理系统,理论上支持多种资源,目前支持CPU和内存两种资源YARN产生背景 直接源于MRv1在几个方面的缺陷 扩展性受限 单点故障 难以支持MR之外的计算 多计算框架各自为战,数据共享困难 MR:离线计算框架 Storm:实原创 2016-01-14 22:44:30 · 18172 阅读 · 0 评论 -
大数据(四) - MapReduce
MapReduce适合PB级以上海量数据的离线处理MapReduce不擅长什么 实时计算 像MySQL一样,在毫秒级或者秒级内返回结果 流式计算 MapReduce的输入数据集是静态的,不能动态变化 MapReduce自身的设计特点决定了数据源必须是静态的原创 2016-01-15 21:39:18 · 4036 阅读 · 0 评论 -
大数据(五) - HBase
HBase是一个构建在HDFS上的分布式列存储系统,主要用于海量结构化数据存储,从逻辑上讲,HBase将数据按照表、行和列进行存储。HDFS适合批处理场景 不支持数据随机查找 不适合增量数据处理 不支持数据更新以上HDFS不适合、不支持的场景,HBase都支持 大数据上高并发操作,比如每秒对PB级数据进行上千次操作,并原创 2016-01-16 07:34:28 · 6130 阅读 · 0 评论 -
大数据(七) - Flume
flume[flu:m]:日志采集、聚合和传输的系统,java语言实现http://flume.apache.org/http://flume.apache.org/FlumeUserGuide.htmlflume是干什么的?收集日志的flume如何搜集日志?我们把flume比作情报人员(1)搜集信息(2)获取记忆信息(3)传递报告间谍信息f原创 2016-01-18 07:10:33 · 3247 阅读 · 1 评论 -
IP数据库的比较和选择
网络上最有名是纯真 IP 库,其他可选项有:ipip.net 数据库和各种语言版本的API http://www.ipip.net/download.html 已经有很多国内大公司购买 站长的一篇博客,ip库需要常更新,且准确率不可能达到100%,对纯真库的一些方面还是有质疑的 参考了纯真 IP 库、淘宝 IP 库、腾讯 IP 库、新浪 IP 库、中国原创 2016-01-18 14:42:00 · 10231 阅读 · 4 评论 -
大数据(九) - Hive
构建在Hadoop之上的数据仓库,数据计算使用MR,数据存储使用HDFS 因为数据计算使用mapreduce,因此通常用于进行离线数据处理Hive 定义了一种类 SQL 查询语言——HQL 类似SQL,但不完全相同可认为是一个HQL-->MR的语言翻译器。简单,容易上手有了Hive,还需要自己写MR程序吗? Hive的H原创 2016-01-19 06:28:18 · 5189 阅读 · 1 评论 -
大数据(十一) - Mahout
传统数据挖掘/机器学习库存在的问题 缺少一个活跃的技术社区 扩展性差 文档化差,缺少实例 不开源,商业化库 通常由研究机构开发 实施性差Apache Mahout优点 技术社区活跃 扩展性好 文档化好,实例丰富原创 2016-01-20 06:47:06 · 4481 阅读 · 0 评论 -
大数据(十二) - Oozie
基本概念 目前计算框架和作业类型繁多: MapReduce Java、Streaming、HQL、Pig等 如何对这些框架和作业进行统一管理和调度: 不同作业之间存在依赖关系(DAG); 周期性作业 定时执行的作业 作业执行状态监控与报警 多种解决方案: Cro原创 2016-01-21 13:09:34 · 4376 阅读 · 0 评论 -
远程连接hive server
hiveserver21、在hive服务器上启动hive server2,在你的hive主目录/bin/下找到并执行下面的命令,默认监听10000端口#hiveserver22、使用cli在本机连接#beelinebeeline> !connect jdbc:hive2://localhost:10000 user pwduser和pwd可以随便写的,连接后,可以执原创 2017-11-16 12:18:43 · 14423 阅读 · 1 评论