- 博客(52)
- 收藏
- 关注
原创 mysql-hive-hbase数据之间的传递-sqoop
1.将mysql数据导入hivea.普通表创建hive表格 CREATE TABLE hive.mysql_to_hive ( id INT, name STRING, age INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; sqoop import \ --connect ...
2019-01-25 10:43:25 228
原创 c3p0使用
1.xml配置<?xml version="1.0" encoding="ISO-8859-1"?><c3p0-config><!--默认配置 --><default-config><property name="driverClass">com.mysql.jdbc.Driver<
2019-01-25 10:06:09 138
原创 导入mysql中文乱码问题
一、避免创建数据库及表出现中文乱码和查看编码方法1、创建数据库的时候: 1 2 3 CREATE DATABASE `test` CHARACTER SET 'utf8' COLLATE 'utf8_general_ci'; 2、建表的时候 1 2 3 4 CR...
2019-01-22 19:43:48 751
原创 flume--avro输入
a1.sources = s1a1.channels = c1a1.sinks = k1a1.sources.s1.type = avroa1.sources.s1.channels = c1a1.sources.s1.bind = wangfutaia1.sources.s1.port = 4141a1.channels.c1.type = filea1.channels....
2019-01-21 16:42:22 279
原创 flume--多路复用
同一时刻,source只能传输给一个channelsource是通过event header来决定传输到哪一个channelsource 本地channel c1 localfile c2 memsink k1 logger k2本地目录如果文件名1_txt 传输到logger 如果是2_txt 传输到本地a1.sources = s1 a1.channels =...
2019-01-21 16:41:29 1807 1
原创 flume--多路复制(上传到hdfs和本地)
a1.sources = s1a1.channels=c1 c2a1.sinks=k1 k2a1.sources.s1.type = syslogtcpa1.sources.s1.port = 5140a1.sources.s1.host = wangfutaia1.sources.s1.channels = c1 c2配置多路复制a1.sources.s1.sel...
2019-01-21 16:40:52 301
原创 收集http协议数据
a1.sources = s1a1.sinks = k1a1.channels = c1a1.sources.s1.type = httpa1.sources.s1.port = 5140a1.sources.s1.bind = 192.168.15.76a1.sources.s1.channels = c1a1.sources.s1.handler = org.apache.fl...
2019-01-21 16:40:23 249
原创 flume --收集日志到hbase中
a1.sources = s1a1.channels = c1a1.sinks = k1#tcp协议a1.sources.s1.type = syslogtcpa1.sources.s1.port = 5140a1.sources.s1.host = wangfutaia1.sources.s1.channels = c1#channela1.channels.c1.typ...
2019-01-21 16:39:55 333
原创 flume--收集日志到hive
方案一:收集到hdfs中方案二:插入已经有的表,使用flume收集数据到hive,hive中数据必须以orc格式保存source 网络日志channel 本地磁盘+memory,优先使用内存,如果内存使用完毕,就使用本地磁盘作为缓冲sink hivea1.sources = s1a1.channels=c1a1.sinks=k1#tcp协议a1.sources.s1.t...
2019-01-21 16:36:54 1117
原创 flume--收集日志到hdfs
例子:a1.sources = s1a1.channels=c1a1.sinks=k1#tcp协议a1.sources.s1.type = syslogtcpa1.sources.s1.port= 5140a1.sources.s1.host= wangfutaia1.sources.s1.channels = c1a1.channels = c1a1.channels....
2019-01-21 16:36:14 323
原创 flume--网络日志收集
#channels 内存#sink 本地a1.sources = s1a1.channels=c1a1.sinks=k1#tcp协议#a1.sources.s1.type = syslogtcp#a1.sources.s1.port= 5140#a1.sources.s1.host= wangfutai#a1.sources.s1.channels = c1...
2019-01-21 16:35:20 184
原创 hive面试题
1. Hive数据倾斜原因key分布不均匀业务数据本身的特性SQL语句造成数据倾斜解决方法:1).hive设置hive.map.aggr=true和hive.groupby.skewindata=true有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中,Map的输出结果集合会随机分布到Reduce中,每个Reduce做...
2019-01-21 16:19:57 575
原创 flume收集日志到hive遇到问题总结
异常如下:19/01/18 02:12:51 WARN hive.HiveSink: k1 : Failed connecting to EndPoint {metaStoreUri='thrift://wangfutai:9083', database='hive', table='flume2', partitionVals=[] }org.apache.flume.sink.hive...
2019-01-18 19:00:44 3333
转载 hive原理
什么是Hive? Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和...
2019-01-16 20:16:18 117
转载 深入学习HBase架构原理
HBase定义 HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。 HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop HDFS 作为其文件存储系统;Google 运行MapR...
2019-01-16 19:55:31 111
原创 flume使用方法
1.一个简单的例子1.写配置文件01localDir_local.flu#flume中一个基本单元式agent,可以有多个channel,多个sink#给代理起名称, 不需要声明直接使用#分布给a1代理下的source channel sink起一个名称#a1代理下sources有一个名为s1#如果有多个:a1.channels=c1 c2 c3sources = s1a1....
2019-01-16 17:17:54 503
转载 Oracle 正则表达式
Oracle中的正则表达式4个函数: 1. regexp_like 2. regexp_substr 3. regexp_instr 4. regexp_replace regexp_like 只能用于条件表达式,和 like 类似,但是使用的正则表达式进行匹配,语法很简单: regexp_substr 函数,和 substr 类似,用于拾取符合正则表达式描述的字符子串,语...
2019-01-16 15:06:12 128
原创 Hbase的wal机制
简介hbase是基于LSM树的存储系统,它使用日志文件和内存存储来的存储架构将随机写转换成顺序写,以此保证稳定的数据插入速率。而这里说的日志文件即是wal文件,用于在服务器崩溃后回滚还没持久化的数据。WAL(Write-Ahead-Log)预写日志是Hbase的RegionServer在处理数据插入和删除的过程中用来记录操作内容的一种日志。在每次Put、Delete等一条记录时,首先将...
2019-01-16 14:14:25 1695
转载 HBase之HFile详解
HFile是HBase存储数据的文件组织形式。HFile经历了三个版本,其中V2在0.92引入,V3在0.98引入。HFileV1版本的在实际使用过程中发现它占用内存多,HFile V2版本针对此进行了优化,HFile V3版本基本和V2版本相同,只是在cell层面添加了Tag数组的支持。 一 HFile 文件结构从以上图片可以看出HFile主要分为四个部分:Scanned B...
2019-01-16 13:53:00 1328
转载 HBase Rowkey设计原则
HBase由于其存储和读写的高性能,在OLAP及时分析中发挥重要作用,HBase的查询只能通过rowkey来查询(rowkey便表示唯一一行记录)rowkey设计的优劣直接影响读写性能。HBase中的数据是按照rowkey的ASCII字典书序来进行全局排序举例:假如有5个RowKey:”012“,"0","123","234","3",按ASCII字典排序后的结果为:"0", "012&qu
2019-01-16 13:50:59 717
原创 Oracle字段中使用 |或者其他符合分割后数据的取值
实例01:CREATE TABLE T3 ( LX VARCHAR2(10), DM VARCHAR2(20), QX VARCHAR2(3000) ); insert into T3 values('CK09','mp702','about|accept|cancel|controlg|controlp'); select LX, DM, regexp_substr(QX, ...
2019-01-15 16:27:28 1142
原创 hbase 参考列过滤器
1.代码测试数据:package hbase.hbasseAPI.Filter;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoo...
2019-01-15 12:53:22 334
原创 左半开连接(left semi join)
1.left semi join 子句中右边的表只能在 ON 子句中设置过滤条件,在 WHERE 子句、SELECT 子句或其他地方过滤都不行。例子: select * from person g left semi join exptest t on g.name = t.name where g.name='wang'; --语句可以查询,因为where g.name='wang'; ...
2019-01-14 17:03:36 5012
原创 hql优化(持续更新)
join的优化hive假定查询中的最后一个表是最大的表,在每次进行连接操作时,其会将其他表缓存起来,然后扫描最后那个进行计算,所有需要保证连续查找中表的大小按照从左到右依次增加。或者,使用 /*+STREAMTABLE(大表别名)*/,最大的表可以不放到最后面。注意,此处和关系型数据库的区别: 关系型数据库优化时,选择最有效率的表名顺序<查两张以上表时,把记录少的放在右边>...
2019-01-14 16:19:08 1647
转载 Hive性能调校
1. 设置hive.map.aggr=true,提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。缺点:该设置会消耗更多的内存。注:顶层的聚合操作(top-levelaggregation operation),是指在group by语句之前执行的聚合操作。例如,hive&g...
2019-01-14 15:28:34 239
原创 hive-表生成函数
1.explode--1.直接使用explodehive (hive)> select * from person;OKperson.id person.name person.likes1 wang ["lol","data2"]2 tom ["跳槽"]3 Jack ["得分","阿斯蒂芬","大师傅"]4 jim ["登陆",&qu
2019-01-14 14:50:38 1054
转载 hive中分区表(partition table):动态分区(dynamic partition)和 静态分区(static partition)
一、基本概念 hive中分区表分为:范围分区、列表分区、hash分区、混合分区等。 分区列:分区列不是表中的一个实际的字段,而是一个或者多个伪列。翻译一下是:“在表的数据文件中实际上并不保存分区列的信息与数据”,这个概念十分重要,要记住,后面是经常用到。1.1 创建数据表 下面的语句创建了一个简单的分区表:复制代码create table partition_test(...
2019-01-14 12:27:06 3490
转载 HBase--通过Java API与HBase交互(增删改)
import java.io.IOException; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoo...
2019-01-14 10:42:29 138
原创 从hbase到hbase数据传输
1.mappackage mr.hdfstoHbase.HbaseTOHbase;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.client.Result;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.ap...
2019-01-11 17:48:14 350
原创 从Hbase传输数据到Hdfs
1.自定义一个类package mr.hdfstoHbase.HbaseToHdfsMapper;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.util.Objects;...
2019-01-11 17:43:26 1305
原创 从hdfs中插入数据到hbase中
package mr.hdfstoHbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.a...
2019-01-11 17:40:08 1546
原创 c3p0的使用
1.c3p0的使用 public static void main(String[] args) throws SQLException { QueryRunner qr = JDBCUtil.getQueryRunner(); String sql = "select * from t_emp where id=?";//一个对象 String sql2 = "select *...
2019-01-11 09:33:39 730
原创 hbaseAPI DML数据增删改
public static void main(String[] args) throws IOException { System.setProperty("hadoop.home.dir", "D:\\hadoop-2.6.0-cdh5.15.0"); Configuration conf = new Configuration(); ...
2019-01-10 19:39:52 150
原创 hbaseAPI 针对表操作 ddl
public static void main(String[] args) throws IOException { System.setProperty("hadoop.home.dir", "D:\\hadoop-2.6.0-cdh5.15.0"); Configuration conf = new Configuration(); ...
2019-01-10 19:38:21 289
原创 hbaseAPI 命名空间
public static void main(String[] args) throws IOException { System.setProperty("hadoop.home.dir", "D:\\hadoop-2.6.0-cdh5.15.0"); //1.设置 // zookeeper.znode.parent /hb...
2019-01-10 19:36:48 883
原创 hbaseAPI中 rowkey使用整数表示的结果
// rowkey设置为整形1~31 转换为了16进制表示32~126转换为ASCII码的字符表示(包括32和126)127以后按照16进制表示(包括127)代码: public static void main(String[] args) throws IOException { System.setProperty("hadoop.home.dir",...
2019-01-10 15:42:06 539
原创 hive和hbase数据相互关联
一.使用hive获取,HBASE中数据1.create 'hadoop:hbase_hive_human','info'2.造数put 'hadoop:hbase_hive_human','1','info:id','1'put 'hadoop:hbase_hive_human','1','info:name','wang'put 'hadoop:hbase_hive_human','...
2019-01-10 14:47:31 505
转载 hbase 和 hive 关联表
hive 创建 关联hbase表有2种形式:第一种:hive> create table hive(id string,name string, age int)> stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'> with serdeproperties ("hbase.columns.mapp...
2019-01-10 10:02:50 355
原创 HIVE分区常用操作
分区常用操作1.查看分区表中有哪些分区show partitions table_name;SHOW PARTITIONS tomcat_log PARTITION(year='2019');2.查询某个分区下的数据根据分区查询数据select table_coulm from table_name where partition_name = '2014-02-25’;...
2019-01-09 20:22:22 512
原创 HBASE基础命令
三.基本命令1.命名空间--区分大小写(1)创建命名空间 create_namespace 'hadoop'创建一个命名空间,并且指定属性create_namespace 'ns1', {‘key1'=>'value2’}注意:1)hbase中没有进入到某一个namespace概念,操作表格,一律带上namespace名称,否则就默认从default这个namespace中找...
2019-01-09 18:28:54 307
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人