- 博客(12)
- 资源 (3)
- 收藏
- 关注
原创 【Flume】举例分析如何配置Flume
Flume非常灵活,日常工作中可以根据实际需求配置。如果大家不知道Flume支持哪些配置,那么可以关注Flume官网。在Configuration标签下有Flume Source,Flume Sinks,Flume Channels,分别对source、sink、channel组件的配置做了详细介绍。我们在配置的时候参考官网,稍加改动即可。下面就对常见配置方式举例分析:1.网络采集ag...
2020-02-23 21:04:52 366
原创 【Sqoop】sqoop导入导出
本文简单介绍Sqoop如下操作:Import: rdbms导入HDFS; rdbms导入Hive; rdbms导入Hbase;Export: Hive导出到rdbms; Hbase导出到rdbms;其中,rdbms以mysql数据库为例。环境准备mysql中建库、建表并插入测试数据:create database userdb;use userdb;creat...
2020-02-22 00:19:20 285
原创 【Sqoop】Sqoop job实现增量导入的原理
我们在使用Sqoop的增量导入时,需要配置三个参数:假设有这样的场景:使用Sqoop每天定时导出一张表(emp)的增量数据,其中emp的id列为自增列。那么此时有两种方式实现:(1) 每天收工配置last-value,手工调度;(2) 使用job,给定初始last-value,每天定时自动跑;相信大多数人会选择(2)种方式。为什么job可以给定一次last-value就可以自动抽取...
2020-02-21 20:21:32 1640
原创 【HBase】Java API - 向表中插入数据
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Connection;import org.a...
2020-02-15 22:25:27 2389
原创 【HBase】创建表-Java API操作
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;impor...
2020-02-15 22:02:05 2256 2
原创 【汇编语言】进制转换
十进制转二进制1.整数除二取余,倒着写如:十进制9转换二进制9 ÷ 2 = 4…14 ÷ 2 = 2…02 ÷ 2 = 1…01 ÷ 2 = 0…1倒写余数,所以十进制9转换为二进制为:10012.小数乘二取整,顺序写如:十进制0.5转换二进制首先要明白,十进制小数转二进制仍然为小数,所以二进制左边 为0.xx0.5 × 2 = 1.0 取整数部分“1”此时小数...
2020-02-15 14:36:54 4054 1
原创 【Hive】多字符分隔
在创建Hive表时,一般我们会指定字段间的分隔符,如空格,\t,逗号等,这些是都单字符。那么,如果我们想要按照多个字符分隔,如##,|+|等,这时候就要用到如下两种方式:MultiDelimitSerDe解决多字符分隔创建表0: jdbc:hive2://node03:10000> create table test1 (id string, name string). . . ...
2020-02-09 11:22:52 1147 1
原创 【MapReduce】MapReduce工作机制
一个mapreduce作业,一般分为两阶段执行:map阶段和reduce阶段,下面分别对这两阶段进行介绍。Map阶段Map阶段又分为五部分:读取文件阶段,MapTask阶段,collect阶段,溢写阶段,combine阶段。首先客户端把待处理文件分片信息、jar包信息、参数信息等提交到HDFS。然后Yarn集群接受任务,启动AppMaster把任务分配NodeManager,并由NodeM...
2020-02-09 00:44:53 536
原创 【MapReduce】编程指导思想
MapReduce编程思想共分为8步:map阶段:2步shuffle阶段:4步reduce阶段:2步Map阶段第一步: 设置inputFormat类,将数据切分为k-v对,输入到第二步;第二步:自定义map逻辑,处理第一步中生成的k-v对,然后转换成新的的k-v进行输出;Shuffle阶段第三步:对输出的k-v进行分区,相同k的数据发往同一个reduce,相同k合并,v形成一个集合...
2020-02-08 16:24:13 356
原创 【Yarn】工作机制及任务提交流程
本文以mr程序为例,解释yarn的工作机制及任务提交流程:0. mr程序提交任务到客户端所在节点;1.节点上的YarnRunner向ResourceManager申请一个Application;2. ResourceManager会把Application资源路径及application_id返回YarnRunner;3. 该程序将job运行所需资源提交到HDFS;4. 资源提交完毕后,...
2020-02-08 10:33:43 1559 1
原创 【Hive】数据导出
Hive版本:Hive 1.1.0-cdh5.14.2INSERT导出到目录官方链接Standard syntax:INSERT OVERWRITE [LOCAL] DIRECTORY directory1[ROW FORMAT row_format] [STORED AS file_format] (Note: Only available starting with Hive 0....
2020-02-08 09:38:44 263
原创 【Hive】数据导入方法
Hive版本:Hive 1.1.0-cdh5.14.21. INSERT插入1.1 单条插入INSERT INTO TABLE tablename [PARTITION (partcol1[=val1], partcol2[=val2] ...)] VALUES values_row [, values_row ...]举例如下:0: jdbc:hive2://node03:10000...
2020-02-06 11:21:10 517
Python Indent插件
2017-09-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人