自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Just Do IT

但行好事,莫问前程!

  • 博客(12)
  • 资源 (3)
  • 收藏
  • 关注

原创 【Flume】举例分析如何配置Flume

Flume非常灵活,日常工作中可以根据实际需求配置。如果大家不知道Flume支持哪些配置,那么可以关注Flume官网。在Configuration标签下有Flume Source,Flume Sinks,Flume Channels,分别对source、sink、channel组件的配置做了详细介绍。我们在配置的时候参考官网,稍加改动即可。下面就对常见配置方式举例分析:1.网络采集ag...

2020-02-23 21:04:52 366

原创 【Sqoop】sqoop导入导出

本文简单介绍Sqoop如下操作:Import:​ rdbms导入HDFS;​ rdbms导入Hive;​ rdbms导入Hbase;Export:​ Hive导出到rdbms;​ Hbase导出到rdbms;其中,rdbms以mysql数据库为例。环境准备mysql中建库、建表并插入测试数据:create database userdb;use userdb;creat...

2020-02-22 00:19:20 285

原创 【Sqoop】Sqoop job实现增量导入的原理

我们在使用Sqoop的增量导入时,需要配置三个参数:假设有这样的场景:使用Sqoop每天定时导出一张表(emp)的增量数据,其中emp的id列为自增列。那么此时有两种方式实现:(1) 每天收工配置last-value,手工调度;(2) 使用job,给定初始last-value,每天定时自动跑;相信大多数人会选择(2)种方式。为什么job可以给定一次last-value就可以自动抽取...

2020-02-21 20:21:32 1640

原创 【HBase】Java API - 向表中插入数据

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Connection;import org.a...

2020-02-15 22:25:27 2389

原创 【HBase】创建表-Java API操作

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;impor...

2020-02-15 22:02:05 2256 2

原创 【汇编语言】进制转换

十进制转二进制1.整数除二取余,倒着写如:十进制9转换二进制9 ÷ 2 = 4…14 ÷ 2 = 2…02 ÷ 2 = 1…01 ÷ 2 = 0…1倒写余数,所以十进制9转换为二进制为:10012.小数乘二取整,顺序写如:十进制0.5转换二进制首先要明白,十进制小数转二进制仍然为小数,所以二进制左边 为0.xx0.5 × 2 = 1.0 取整数部分“1”此时小数...

2020-02-15 14:36:54 4054 1

原创 【Hive】多字符分隔

在创建Hive表时,一般我们会指定字段间的分隔符,如空格,\t,逗号等,这些是都单字符。那么,如果我们想要按照多个字符分隔,如##,|+|等,这时候就要用到如下两种方式:MultiDelimitSerDe解决多字符分隔创建表0: jdbc:hive2://node03:10000> create table test1 (id string, name string). . . ...

2020-02-09 11:22:52 1147 1

原创 【MapReduce】MapReduce工作机制

一个mapreduce作业,一般分为两阶段执行:map阶段和reduce阶段,下面分别对这两阶段进行介绍。Map阶段Map阶段又分为五部分:读取文件阶段,MapTask阶段,collect阶段,溢写阶段,combine阶段。首先客户端把待处理文件分片信息、jar包信息、参数信息等提交到HDFS。然后Yarn集群接受任务,启动AppMaster把任务分配NodeManager,并由NodeM...

2020-02-09 00:44:53 536

原创 【MapReduce】编程指导思想

MapReduce编程思想共分为8步:map阶段:2步shuffle阶段:4步reduce阶段:2步Map阶段第一步: 设置inputFormat类,将数据切分为k-v对,输入到第二步;第二步:自定义map逻辑,处理第一步中生成的k-v对,然后转换成新的的k-v进行输出;Shuffle阶段第三步:对输出的k-v进行分区,相同k的数据发往同一个reduce,相同k合并,v形成一个集合...

2020-02-08 16:24:13 356

原创 【Yarn】工作机制及任务提交流程

本文以mr程序为例,解释yarn的工作机制及任务提交流程:0. mr程序提交任务到客户端所在节点;1.节点上的YarnRunner向ResourceManager申请一个Application;2. ResourceManager会把Application资源路径及application_id返回YarnRunner;3. 该程序将job运行所需资源提交到HDFS;4. 资源提交完毕后,...

2020-02-08 10:33:43 1559 1

原创 【Hive】数据导出

Hive版本:Hive 1.1.0-cdh5.14.2INSERT导出到目录官方链接Standard syntax:INSERT OVERWRITE [LOCAL] DIRECTORY directory1[ROW FORMAT row_format] [STORED AS file_format] (Note: Only available starting with Hive 0....

2020-02-08 09:38:44 263

原创 【Hive】数据导入方法

Hive版本:Hive 1.1.0-cdh5.14.21. INSERT插入1.1 单条插入INSERT INTO TABLE tablename [PARTITION (partcol1[=val1], partcol2[=val2] ...)] VALUES values_row [, values_row ...]举例如下:0: jdbc:hive2://node03:10000...

2020-02-06 11:21:10 517

SOWC 2014 Stat Tables_Table 9.xlsx

《Python 数据处理》第四章Excel实验文件,用于测试童工和童婚数量分析。

2018-05-15

population_data.json

用Python练习做世界人口地图的文件。《Python编程:从入门到实践》,数据可视化经典案例所需文件。

2017-10-19

Python Indent插件

此插件用于解决python自动缩进问题。 1. 解压压缩包 2. 把Python Indent文件夹和Python Indent.dll放在notepad++安装目录的plugins文件夹下 3. 重启notepad++ 4. 依次点击 插件--Python Indent--Enable,将Enable打钩 5. 问题解决

2017-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除