SunWuKong_Hadoop的博客

要活得开心,活得漂亮

跟我一起学Spark之——数据分区

前言         控制数据分布以获得最少的网络传输可以极大地提升整体性能。         如果给定RDD只需要被扫描一次(例如大小表join中的小表),我们完全没有必要对其预先进行分区处理,只有当数据集多次在诸如连接这种基于键的操作中使用时(大表),分区才有帮助。         尽管...

2019-01-11 13:08:54

阅读数 66

评论数 0

Hive与HBase整合(实例)

  实例1 1.先在Hbase中创建表(三列族): create 'ceshi7', {NAME=>'TIME',VERSIONS=>1,BLOCKCACHE=>true,BLOOMFILTER=>'R...

2019-01-04 11:48:33

阅读数 46

评论数 0

Hive的静态分区和动态分区

虽然之前已经用过很多次hive的分区表,但是还是找时间快速回顾总结一下加深理解. 举个栗子,基本需求就是Hive有一张非常详细的原子数据表original_device_open,而且还在不断随着时间增长,那么我需要给它进行分区,为什么要分区?因为我想缩小查询范围,提高速度和性能. 分区其实是...

2018-12-28 17:19:31

阅读数 55

评论数 0

跟我一起学Spark之——Spark进阶编程

6.1简介 主要介绍两种类型的共享变量:累加器(accumulator)、广播变量(broadcast variable) 累加器用来对信息进行聚合,广播变量用来高效分发较大的对象。 我们使用Spark共享变量来对非严重错误的情况进行计数,以及分发一张巨大的查询表。 当任务需要很长时间进行...

2019-02-14 18:14:09

阅读数 15

评论数 0

spark-beeline导出hive表数据到csv方法,乱码原因及解决方案

亲测语句1:  spark-beeline -u jdbc:hive2://10.254.1.1:13002,10.254.1.1:13002,10.254.1.1:13002 --verbose=true --outputformat=csv -e "select * ...

2019-02-14 17:41:16

阅读数 14

评论数 0

跟我一起学Spark之——数据读取与保存

原书中写到:         工程师会了解到更多的输出格式,有利于找到非常合适用于下游处理程序的格式。         数据科学家则可能更关心数据现有的组织形式。 三类常见数据源: 1.文件格式与文件系统; (文本文件、JSON、逗号分隔与制表符分隔值、SquenceFile、对象文件、...

2019-02-14 15:45:40

阅读数 26

评论数 1

Python3操作EXCEL,取汉字首字母,拼接全拼

开发需求: 将EXCEL中某列特殊字符之前的汉字取首字母,特殊字符之后的汉字取全拼,然后用下划线“_”相连,写入下一列 把*******.xls中的汉字人名转成用户名,写到后面的单元格中。 例如:网络--李大海 : wl_lidahai            现场-扬帆 : xc_yangfa...

2019-01-29 10:51:40

阅读数 56

评论数 0

跟我一起学Spark之——自定义分区实现

实现功能:将数据按照某个字段进行分开存储 样例数据: 20170721101954    http://sport.sina.cn/sport/race/nba.shtml 20170721101954    http://sport.sina.cn/sport/watch.shtml 20...

2019-01-23 18:13:06

阅读数 56

评论数 0

跟我一起学Spark之——用户在线时长和登录次数统计

package 用户在线时长和登录次数统计 /** * Created by zhoubh on 2016/6/28. */ import java.text.SimpleDateFormat import org.apache.spark.rdd.RDD import org.apac...

2019-01-23 01:21:40

阅读数 56

评论数 0

跟我一起学Python3.X之——TextRank算法为文本生成关键字和摘要

TextRank算法基于PageRank,用于为文本生成关键字和摘要。其论文是: Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]. Association for Computational Linguistics, 200...

2019-01-21 16:37:07

阅读数 53

评论数 0

用beeline连接SparkSQL

1. 在$SPARK_HOME/conf/hive-site.xml文件中添加下面的属性 vi $SPARK_HOME/conf/hive-site.xml <configuration>      <property&am...

2019-01-11 11:18:37

阅读数 67

评论数 2

Hive 3.x 功能介绍

这个版本中有什么新东西:Apache Hive  hvie 3.1包括物化视图的分区,这可以提高查询响应能力和维护修复。 工作量管理  使用工作负载管理,您可以配置谁使用资源,可以使用多少以及Hive响应资源请求的速度。管理资源对于Hive LLAP(低延迟分析处理)至关重要,尤其是在多租户环境中...

2019-01-10 17:03:38

阅读数 89

评论数 0

hive 3.x 特性更改

Apache Hive 3.x 架构介绍     hive 的更新操作一直是大数据仓库头痛的问题,在3.x之前也支持update,但是速度太慢,还需要进行分桶,现在hive 支持全新ACID,并且底层采用TEZ 和内存进行查询,性能是hive2的50倍。生产建议升级到hive3.1.1版本。   ...

2019-01-10 16:36:58

阅读数 110

评论数 0

Hive常用参数调优(较全)

1、limit限制调整 一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果。 有一个配置属性可以开启,避免这种情况---对数据源进行抽样 set hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 set hive.li...

2019-01-09 16:49:15

阅读数 48

评论数 0

hive的hive.exec.parallel参数说明

hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,默认为false. 下面是对于该参数的测试过程: 测试sql: select r1.a from ( select t.a from sunwg_10 t join sunwg_1000000...

2019-01-09 15:39:22

阅读数 58

评论数 0

HBase中rowkey及建表方式设计

rowkey及建表方式设计(旧) 场景 单次查询条件 查询 方式 rowkey设计 建表 存在的问题 指标墙 时间、地域、指标都固定 get 指标  + 时间 + 子region 三种场景一个表 第一种场景没问题 指标分析...

2019-01-04 12:03:34

阅读数 43

评论数 0

HBase中级建表语句解析

create 'NewsClickFeedback', {NAME=>'Toutiao', VERSIONS=>1, BLOCKCACHE=>true, BLOOMFILTER=>'ROW', COMPRES...

2019-01-04 09:39:51

阅读数 43

评论数 0

认识hbase表结构

逻辑视图 HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(row family) Row Key column-family1 column-family2 column-family3 column1 column1 column1 ...

2019-01-03 15:17:10

阅读数 43

评论数 0

Hive与HBase整合 (不附过程图-自测成功)

                                   Hive与HBase整合文档 1、  Hive整合HBase配置 1.1   拷贝hbase 相关jar包 将hbase 相关jar包拷贝到hive lib目录下 hbase-client-0.98.13-hadoop2...

2019-01-02 17:02:29

阅读数 58

评论数 0

Hbase快速开始——shell操作

目录 一. 介绍 二. 安装 三. 命令行操作 一. 介绍       HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文...

2019-01-02 12:03:36

阅读数 46

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭