2019年01月_wangfutai91

原创 mysql-hive-hbase数据之间的传递-sqoop

1.将mysql数据导入hivea.普通表创建hive表格 CREATE TABLE hive.mysql_to_hive ( id INT, name STRING, age INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; sqoop import \ --connect ...

2019-01-25 10:43:25 228

原创 c3p0使用

1.xml配置<?xml version="1.0" encoding="ISO-8859-1"?><c3p0-config><default-config><property name="driverClass">com.mysql.jdbc.Driver<

2019-01-25 10:06:09 138

原创导入mysql中文乱码问题

一、避免创建数据库及表出现中文乱码和查看编码方法1、创建数据库的时候： 1 2 3 CREATE DATABASE `test` CHARACTER SET 'utf8' COLLATE 'utf8_general_ci'; 2、建表的时候 1 2 3 4 CR...

2019-01-22 19:43:48 751

原创 flume--avro输入

a1.sources = s1a1.channels = c1a1.sinks = k1a1.sources.s1.type = avroa1.sources.s1.channels = c1a1.sources.s1.bind = wangfutaia1.sources.s1.port = 4141a1.channels.c1.type = filea1.channels....

2019-01-21 16:42:22 279

原创 flume--多路复用

同一时刻，source只能传输给一个channelsource是通过event header来决定传输到哪一个channelsource 本地channel c1 localfile c2 memsink k1 logger k2本地目录如果文件名1_txt 传输到logger 如果是2_txt 传输到本地a1.sources = s1 a1.channels =...

2019-01-21 16:41:29 1807 1

原创 flume--多路复制（上传到hdfs和本地）

a1.sources = s1a1.channels=c1 c2a1.sinks=k1 k2a1.sources.s1.type = syslogtcpa1.sources.s1.port = 5140a1.sources.s1.host = wangfutaia1.sources.s1.channels = c1 c2配置多路复制a1.sources.s1.sel...

2019-01-21 16:40:52 301

原创收集http协议数据

a1.sources = s1a1.sinks = k1a1.channels = c1a1.sources.s1.type = httpa1.sources.s1.port = 5140a1.sources.s1.bind = 192.168.15.76a1.sources.s1.channels = c1a1.sources.s1.handler = org.apache.fl...

2019-01-21 16:40:23 249

原创 flume --收集日志到hbase中

a1.sources = s1a1.channels = c1a1.sinks = k1#tcp协议a1.sources.s1.type = syslogtcpa1.sources.s1.port = 5140a1.sources.s1.host = wangfutaia1.sources.s1.channels = c1#channela1.channels.c1.typ...

2019-01-21 16:39:55 333

原创 flume--收集日志到hive

方案一：收集到hdfs中方案二：插入已经有的表，使用flume收集数据到hive，hive中数据必须以orc格式保存source 网络日志channel 本地磁盘+memory，优先使用内存，如果内存使用完毕，就使用本地磁盘作为缓冲sink hivea1.sources = s1a1.channels=c1a1.sinks=k1#tcp协议a1.sources.s1.t...

2019-01-21 16:36:54 1117

原创 flume--收集日志到hdfs

例子：a1.sources = s1a1.channels=c1a1.sinks=k1#tcp协议a1.sources.s1.type = syslogtcpa1.sources.s1.port= 5140a1.sources.s1.host= wangfutaia1.sources.s1.channels = c1a1.channels = c1a1.channels....

2019-01-21 16:36:14 323

原创 flume--网络日志收集

#channels 内存#sink 本地a1.sources = s1a1.channels=c1a1.sinks=k1#tcp协议#a1.sources.s1.type = syslogtcp#a1.sources.s1.port= 5140#a1.sources.s1.host= wangfutai#a1.sources.s1.channels = c1...

2019-01-21 16:35:20 184

原创 hive面试题

1. Hive数据倾斜原因key分布不均匀业务数据本身的特性SQL语句造成数据倾斜解决方法:1).hive设置hive.map.aggr=true和hive.groupby.skewindata=true有数据倾斜的时候进行负载均衡，当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做...

2019-01-21 16:19:57 575

原创 flume收集日志到hive遇到问题总结

异常如下：19/01/18 02:12:51 WARN hive.HiveSink: k1 : Failed connecting to EndPoint {metaStoreUri='thrift://wangfutai:9083', database='hive', table='flume2', partitionVals=[] }org.apache.flume.sink.hive...

2019-01-18 19:00:44 3333

转载 hive原理

什么是Hive？ Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和...

2019-01-16 20:16:18 117

转载深入学习HBase架构原理

HBase定义 HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统，利用Hbase技术可在廉价PC Server上搭建大规模结构化存储集群。　　 HBase 是Google Bigtable 的开源实现，与Google Bigtable 利用GFS作为其文件存储系统类似， HBase 利用Hadoop HDFS 作为其文件存储系统；Google 运行MapR...

2019-01-16 19:55:31 111

原创 flume使用方法

1.一个简单的例子1.写配置文件01localDir_local.flu#flume中一个基本单元式agent，可以有多个channel,多个sink#给代理起名称，不需要声明直接使用#分布给a1代理下的source channel sink起一个名称#a1代理下sources有一个名为s1#如果有多个：a1.channels=c1 c2 c3sources = s1a1....

2019-01-16 17:17:54 503

转载 Oracle 正则表达式

Oracle中的正则表达式4个函数： 1. regexp_like 2. regexp_substr 3. regexp_instr 4. regexp_replace regexp_like 只能用于条件表达式，和 like 类似，但是使用的正则表达式进行匹配，语法很简单： regexp_substr 函数，和 substr 类似，用于拾取符合正则表达式描述的字符子串，语...

2019-01-16 15:06:12 128

原创 Hbase的wal机制

简介hbase是基于LSM树的存储系统，它使用日志文件和内存存储来的存储架构将随机写转换成顺序写，以此保证稳定的数据插入速率。而这里说的日志文件即是wal文件，用于在服务器崩溃后回滚还没持久化的数据。WAL(Write-Ahead-Log)预写日志是Hbase的RegionServer在处理数据插入和删除的过程中用来记录操作内容的一种日志。在每次Put、Delete等一条记录时，首先将...

2019-01-16 14:14:25 1695

转载 HBase之HFile详解

HFile是HBase存储数据的文件组织形式。HFile经历了三个版本，其中V2在0.92引入，V3在0.98引入。HFileV1版本的在实际使用过程中发现它占用内存多，HFile V2版本针对此进行了优化，HFile V3版本基本和V2版本相同，只是在cell层面添加了Tag数组的支持。一 HFile 文件结构从以上图片可以看出HFile主要分为四个部分：Scanned B...

2019-01-16 13:53:00 1328

转载 HBase Rowkey设计原则

HBase由于其存储和读写的高性能，在OLAP及时分析中发挥重要作用，HBase的查询只能通过rowkey来查询（rowkey便表示唯一一行记录）rowkey设计的优劣直接影响读写性能。HBase中的数据是按照rowkey的ASCII字典书序来进行全局排序举例：假如有5个RowKey：”012“，"0","123","234","3",按ASCII字典排序后的结果为："0", "012&qu

2019-01-16 13:50:59 717

原创 Oracle字段中使用 |或者其他符合分割后数据的取值

实例01：CREATE TABLE T3 ( LX VARCHAR2(10), DM VARCHAR2(20), QX VARCHAR2(3000) ); insert into T3 values('CK09','mp702','about|accept|cancel|controlg|controlp'); select LX, DM, regexp_substr(QX, ...

2019-01-15 16:27:28 1142

原创 hbase 参考列过滤器

1.代码测试数据：package hbase.hbasseAPI.Filter;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoo...

2019-01-15 12:53:22 334

原创左半开连接（left semi join）

1.left semi join 子句中右边的表只能在 ON 子句中设置过滤条件，在 WHERE 子句、SELECT 子句或其他地方过滤都不行。例子： select * from person g left semi join exptest t on g.name = t.name where g.name='wang'; --语句可以查询，因为where g.name='wang'; ...

2019-01-14 17:03:36 5012

原创 hql优化（持续更新）

join的优化hive假定查询中的最后一个表是最大的表，在每次进行连接操作时，其会将其他表缓存起来，然后扫描最后那个进行计算，所有需要保证连续查找中表的大小按照从左到右依次增加。或者，使用 /*+STREAMTABLE(大表别名)*/，最大的表可以不放到最后面。注意，此处和关系型数据库的区别：关系型数据库优化时，选择最有效率的表名顺序<查两张以上表时，把记录少的放在右边&gt...

2019-01-14 16:19:08 1647

转载 Hive性能调校

1. 设置hive.map.aggr=true，提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行，从而减轻清洗阶段数据传输和Reduce阶段的执行时间，提升总体性能。缺点：该设置会消耗更多的内存。注：顶层的聚合操作（top-levelaggregation operation）,是指在group by语句之前执行的聚合操作。例如，hive&g...

2019-01-14 15:28:34 239

原创 hive-表生成函数

1.explode--1.直接使用explodehive (hive)> select * from person;OKperson.id person.name person.likes1 wang ["lol","data2"]2 tom ["跳槽"]3 Jack ["得分","阿斯蒂芬","大师傅"]4 jim ["登陆",&qu

2019-01-14 14:50:38 1054

转载 hive中分区表(partition table)：动态分区(dynamic partition)和静态分区(static partition)

一、基本概念 hive中分区表分为：范围分区、列表分区、hash分区、混合分区等。分区列：分区列不是表中的一个实际的字段，而是一个或者多个伪列。翻译一下是：“在表的数据文件中实际上并不保存分区列的信息与数据”，这个概念十分重要，要记住，后面是经常用到。1.1 创建数据表下面的语句创建了一个简单的分区表：复制代码create table partition_test(...

2019-01-14 12:27:06 3490

转载 HBase--通过Java API与HBase交互（增删改）

import java.io.IOException; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoo...

2019-01-14 10:42:29 138

原创从hbase到hbase数据传输

1.mappackage mr.hdfstoHbase.HbaseTOHbase;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.client.Result;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.ap...

2019-01-11 17:48:14 350

原创从Hbase传输数据到Hdfs

1.自定义一个类package mr.hdfstoHbase.HbaseToHdfsMapper;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.util.Objects;...

2019-01-11 17:43:26 1305

原创从hdfs中插入数据到hbase中

package mr.hdfstoHbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.a...

2019-01-11 17:40:08 1546

原创 c3p0的使用

1.c3p0的使用 public static void main(String[] args) throws SQLException { QueryRunner qr = JDBCUtil.getQueryRunner(); String sql = "select * from t_emp where id=?";//一个对象 String sql2 = "select *...

2019-01-11 09:33:39 730

原创 hbaseAPI DML数据增删改

public static void main(String[] args) throws IOException { System.setProperty("hadoop.home.dir", "D:\\hadoop-2.6.0-cdh5.15.0"); Configuration conf = new Configuration(); ...

2019-01-10 19:39:52 150

原创 hbaseAPI 针对表操作 ddl

public static void main(String[] args) throws IOException { System.setProperty("hadoop.home.dir", "D:\\hadoop-2.6.0-cdh5.15.0"); Configuration conf = new Configuration(); ...

2019-01-10 19:38:21 289

原创 hbaseAPI 命名空间

public static void main(String[] args) throws IOException { System.setProperty("hadoop.home.dir", "D:\\hadoop-2.6.0-cdh5.15.0"); //1.设置 // zookeeper.znode.parent /hb...

2019-01-10 19:36:48 883

原创 hbaseAPI中 rowkey使用整数表示的结果

// rowkey设置为整形1~31 转换为了16进制表示32~126转换为ASCII码的字符表示（包括32和126）127以后按照16进制表示（包括127）代码： public static void main(String[] args) throws IOException { System.setProperty("hadoop.home.dir",...

2019-01-10 15:42:06 539

原创 hive和hbase数据相互关联

一．使用hive获取，HBASE中数据1.create 'hadoop:hbase_hive_human','info'2.造数put 'hadoop:hbase_hive_human','1','info:id','1'put 'hadoop:hbase_hive_human','1','info:name','wang'put 'hadoop:hbase_hive_human','...

2019-01-10 14:47:31 505

转载 hbase 和 hive 关联表

hive 创建关联hbase表有2种形式：第一种：hive> create table hive(id string,name string, age int)> stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'> with serdeproperties ("hbase.columns.mapp...

2019-01-10 10:02:50 355

原创 HIVE分区常用操作

分区常用操作1.查看分区表中有哪些分区show partitions table_name;SHOW PARTITIONS tomcat_log PARTITION(year='2019');2.查询某个分区下的数据根据分区查询数据select table_coulm from table_name where partition_name = '2014-02-25’;...

2019-01-09 20:22:22 512

原创 HBASE基础命令

三．基本命令1.命名空间--区分大小写(1)创建命名空间 create_namespace 'hadoop'创建一个命名空间，并且指定属性create_namespace 'ns1', {‘key1'=>'value2’}注意：1）hbase中没有进入到某一个namespace概念，操作表格，一律带上namespace名称，否则就默认从default这个namespace中找...

2019-01-09 18:28:54 307

空空如也

空空如也