自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

suojie的博客

学习/总结/思考

  • 博客(52)
  • 收藏
  • 关注

原创 mysql-hive-hbase数据之间的传递-sqoop

1.将mysql数据导入hivea.普通表创建hive表格 CREATE TABLE hive.mysql_to_hive ( id INT, name STRING, age INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; sqoop import \ --connect ...

2019-01-25 10:43:25 228

原创 c3p0使用

1.xml配置<?xml version="1.0" encoding="ISO-8859-1"?><c3p0-config><!--默认配置 --><default-config><property name="driverClass">com.mysql.jdbc.Driver<

2019-01-25 10:06:09 138

原创 导入mysql中文乱码问题

一、避免创建数据库及表出现中文乱码和查看编码方法1、创建数据库的时候: 1 2 3 CREATE DATABASE `test` CHARACTER SET 'utf8' COLLATE 'utf8_general_ci'; 2、建表的时候 1 2 3 4 CR...

2019-01-22 19:43:48 751

原创 flume--avro输入

a1.sources = s1a1.channels = c1a1.sinks = k1a1.sources.s1.type = avroa1.sources.s1.channels = c1a1.sources.s1.bind = wangfutaia1.sources.s1.port = 4141a1.channels.c1.type = filea1.channels....

2019-01-21 16:42:22 279

原创 flume--多路复用

同一时刻,source只能传输给一个channelsource是通过event header来决定传输到哪一个channelsource 本地channel c1 localfile c2 memsink k1 logger k2本地目录如果文件名1_txt 传输到logger 如果是2_txt 传输到本地a1.sources = s1 a1.channels =...

2019-01-21 16:41:29 1807 1

原创 flume--多路复制(上传到hdfs和本地)

a1.sources = s1a1.channels=c1 c2a1.sinks=k1 k2a1.sources.s1.type = syslogtcpa1.sources.s1.port = 5140a1.sources.s1.host = wangfutaia1.sources.s1.channels = c1 c2配置多路复制a1.sources.s1.sel...

2019-01-21 16:40:52 301

原创 收集http协议数据

a1.sources = s1a1.sinks = k1a1.channels = c1a1.sources.s1.type = httpa1.sources.s1.port = 5140a1.sources.s1.bind = 192.168.15.76a1.sources.s1.channels = c1a1.sources.s1.handler = org.apache.fl...

2019-01-21 16:40:23 249

原创 flume --收集日志到hbase中

a1.sources = s1a1.channels = c1a1.sinks = k1#tcp协议a1.sources.s1.type = syslogtcpa1.sources.s1.port = 5140a1.sources.s1.host = wangfutaia1.sources.s1.channels = c1#channela1.channels.c1.typ...

2019-01-21 16:39:55 333

原创 flume--收集日志到hive

方案一:收集到hdfs中方案二:插入已经有的表,使用flume收集数据到hive,hive中数据必须以orc格式保存source 网络日志channel 本地磁盘+memory,优先使用内存,如果内存使用完毕,就使用本地磁盘作为缓冲sink hivea1.sources = s1a1.channels=c1a1.sinks=k1#tcp协议a1.sources.s1.t...

2019-01-21 16:36:54 1117

原创 flume--收集日志到hdfs

例子:a1.sources = s1a1.channels=c1a1.sinks=k1#tcp协议a1.sources.s1.type = syslogtcpa1.sources.s1.port= 5140a1.sources.s1.host= wangfutaia1.sources.s1.channels = c1a1.channels = c1a1.channels....

2019-01-21 16:36:14 323

原创 flume--网络日志收集

#channels  内存#sink 本地a1.sources = s1a1.channels=c1a1.sinks=k1#tcp协议#a1.sources.s1.type =  syslogtcp#a1.sources.s1.port= 5140#a1.sources.s1.host= wangfutai#a1.sources.s1.channels = c1...

2019-01-21 16:35:20 184

原创 hive面试题

1. Hive数据倾斜原因key分布不均匀业务数据本身的特性SQL语句造成数据倾斜解决方法:1).hive设置hive.map.aggr=true和hive.groupby.skewindata=true有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中,Map的输出结果集合会随机分布到Reduce中,每个Reduce做...

2019-01-21 16:19:57 575

原创 flume收集日志到hive遇到问题总结

异常如下:19/01/18 02:12:51 WARN hive.HiveSink: k1 : Failed connecting to EndPoint {metaStoreUri='thrift://wangfutai:9083', database='hive', table='flume2', partitionVals=[] }org.apache.flume.sink.hive...

2019-01-18 19:00:44 3333

转载 hive原理

什么是Hive?       Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和...

2019-01-16 20:16:18 117

转载 深入学习HBase架构原理

HBase定义        HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。    HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop HDFS 作为其文件存储系统;Google 运行MapR...

2019-01-16 19:55:31 111

原创 flume使用方法

1.一个简单的例子1.写配置文件01localDir_local.flu#flume中一个基本单元式agent,可以有多个channel,多个sink#给代理起名称, 不需要声明直接使用#分布给a1代理下的source channel sink起一个名称#a1代理下sources有一个名为s1#如果有多个:a1.channels=c1 c2 c3sources = s1a1....

2019-01-16 17:17:54 503

转载 Oracle 正则表达式

Oracle中的正则表达式4个函数:  1. regexp_like  2. regexp_substr  3. regexp_instr  4. regexp_replace  regexp_like 只能用于条件表达式,和 like 类似,但是使用的正则表达式进行匹配,语法很简单:  regexp_substr 函数,和 substr 类似,用于拾取符合正则表达式描述的字符子串,语...

2019-01-16 15:06:12 128

原创 Hbase的wal机制

简介hbase是基于LSM树的存储系统,它使用日志文件和内存存储来的存储架构将随机写转换成顺序写,以此保证稳定的数据插入速率。而这里说的日志文件即是wal文件,用于在服务器崩溃后回滚还没持久化的数据。WAL(Write-Ahead-Log)预写日志是Hbase的RegionServer在处理数据插入和删除的过程中用来记录操作内容的一种日志。在每次Put、Delete等一条记录时,首先将...

2019-01-16 14:14:25 1695

转载 HBase之HFile详解

HFile是HBase存储数据的文件组织形式。HFile经历了三个版本,其中V2在0.92引入,V3在0.98引入。HFileV1版本的在实际使用过程中发现它占用内存多,HFile V2版本针对此进行了优化,HFile V3版本基本和V2版本相同,只是在cell层面添加了Tag数组的支持。 一 HFile 文件结构从以上图片可以看出HFile主要分为四个部分:Scanned B...

2019-01-16 13:53:00 1328

转载 HBase Rowkey设计原则

HBase由于其存储和读写的高性能,在OLAP及时分析中发挥重要作用,HBase的查询只能通过rowkey来查询(rowkey便表示唯一一行记录)rowkey设计的优劣直接影响读写性能。HBase中的数据是按照rowkey的ASCII字典书序来进行全局排序举例:假如有5个RowKey:”012“,"0","123","234","3",按ASCII字典排序后的结果为:"0", "012&qu

2019-01-16 13:50:59 717

原创 Oracle字段中使用 |或者其他符合分割后数据的取值

实例01:CREATE TABLE T3 ( LX VARCHAR2(10), DM VARCHAR2(20), QX VARCHAR2(3000) ); insert into T3 values('CK09','mp702','about|accept|cancel|controlg|controlp'); select LX, DM, regexp_substr(QX, ...

2019-01-15 16:27:28 1142

原创 hbase 参考列过滤器

1.代码测试数据:package hbase.hbasseAPI.Filter;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoo...

2019-01-15 12:53:22 334

原创 左半开连接(left semi join)

1.left semi join 子句中右边的表只能在 ON 子句中设置过滤条件,在 WHERE 子句、SELECT 子句或其他地方过滤都不行。例子: select * from person g left semi join exptest t on g.name = t.name where g.name='wang'; --语句可以查询,因为where g.name='wang'; ...

2019-01-14 17:03:36 5012

原创 hql优化(持续更新)

join的优化hive假定查询中的最后一个表是最大的表,在每次进行连接操作时,其会将其他表缓存起来,然后扫描最后那个进行计算,所有需要保证连续查找中表的大小按照从左到右依次增加。或者,使用 /*+STREAMTABLE(大表别名)*/,最大的表可以不放到最后面。注意,此处和关系型数据库的区别: 关系型数据库优化时,选择最有效率的表名顺序<查两张以上表时,把记录少的放在右边&gt...

2019-01-14 16:19:08 1647

转载 Hive性能调校

1.      设置hive.map.aggr=true,提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。缺点:该设置会消耗更多的内存。注:顶层的聚合操作(top-levelaggregation operation),是指在group by语句之前执行的聚合操作。例如,hive&g...

2019-01-14 15:28:34 239

原创 hive-表生成函数

1.explode--1.直接使用explodehive (hive)> select * from person;OKperson.id person.name person.likes1 wang ["lol","data2"]2 tom ["跳槽"]3 Jack ["得分","阿斯蒂芬","大师傅"]4 jim ["登陆",&qu

2019-01-14 14:50:38 1054

转载 hive中分区表(partition table):动态分区(dynamic partition)和 静态分区(static partition)

一、基本概念 hive中分区表分为:范围分区、列表分区、hash分区、混合分区等。 分区列:分区列不是表中的一个实际的字段,而是一个或者多个伪列。翻译一下是:“在表的数据文件中实际上并不保存分区列的信息与数据”,这个概念十分重要,要记住,后面是经常用到。1.1 创建数据表 下面的语句创建了一个简单的分区表:复制代码create table partition_test(...

2019-01-14 12:27:06 3490

转载 HBase--通过Java API与HBase交互(增删改)

import java.io.IOException; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoo...

2019-01-14 10:42:29 138

原创 从hbase到hbase数据传输

1.mappackage mr.hdfstoHbase.HbaseTOHbase;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.client.Result;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.ap...

2019-01-11 17:48:14 350

原创 从Hbase传输数据到Hdfs

1.自定义一个类package mr.hdfstoHbase.HbaseToHdfsMapper;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.util.Objects;...

2019-01-11 17:43:26 1305

原创 从hdfs中插入数据到hbase中

package mr.hdfstoHbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.a...

2019-01-11 17:40:08 1546

原创 c3p0的使用

1.c3p0的使用 public static void main(String[] args) throws SQLException { QueryRunner qr = JDBCUtil.getQueryRunner(); String sql = "select * from t_emp where id=?";//一个对象 String sql2 = "select *...

2019-01-11 09:33:39 730

原创 hbaseAPI DML数据增删改

public static void main(String[] args) throws IOException { System.setProperty("hadoop.home.dir", "D:\\hadoop-2.6.0-cdh5.15.0"); Configuration conf = new Configuration(); ...

2019-01-10 19:39:52 150

原创 hbaseAPI 针对表操作 ddl

public static void main(String[] args) throws IOException { System.setProperty("hadoop.home.dir", "D:\\hadoop-2.6.0-cdh5.15.0"); Configuration conf = new Configuration(); ...

2019-01-10 19:38:21 289

原创 hbaseAPI 命名空间

public static void main(String[] args) throws IOException { System.setProperty("hadoop.home.dir", "D:\\hadoop-2.6.0-cdh5.15.0"); //1.设置 // zookeeper.znode.parent /hb...

2019-01-10 19:36:48 883

原创 hbaseAPI中 rowkey使用整数表示的结果

// rowkey设置为整形1~31 转换为了16进制表示32~126转换为ASCII码的字符表示(包括32和126)127以后按照16进制表示(包括127)代码: public static void main(String[] args) throws IOException { System.setProperty("hadoop.home.dir",...

2019-01-10 15:42:06 539

原创 hive和hbase数据相互关联

一.使用hive获取,HBASE中数据1.create 'hadoop:hbase_hive_human','info'2.造数put 'hadoop:hbase_hive_human','1','info:id','1'put 'hadoop:hbase_hive_human','1','info:name','wang'put 'hadoop:hbase_hive_human','...

2019-01-10 14:47:31 505

转载 hbase 和 hive 关联表

hive 创建 关联hbase表有2种形式:第一种:hive> create table hive(id string,name string, age int)> stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'> with serdeproperties ("hbase.columns.mapp...

2019-01-10 10:02:50 355

原创 HIVE分区常用操作

分区常用操作1.查看分区表中有哪些分区show partitions table_name;SHOW PARTITIONS tomcat_log PARTITION(year='2019');2.查询某个分区下的数据根据分区查询数据select table_coulm from table_name where partition_name = '2014-02-25’;...

2019-01-09 20:22:22 512

原创 HBASE基础命令

三.基本命令1.命名空间--区分大小写(1)创建命名空间 create_namespace 'hadoop'创建一个命名空间,并且指定属性create_namespace 'ns1', {‘key1'=>'value2’}注意:1)hbase中没有进入到某一个namespace概念,操作表格,一律带上namespace名称,否则就默认从default这个namespace中找...

2019-01-09 18:28:54 307

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除