2020年02月_卜塔

11月 07月 06月 04月 03月 02月 01月

原创【Flume】举例分析如何配置Flume

Flume非常灵活，日常工作中可以根据实际需求配置。如果大家不知道Flume支持哪些配置，那么可以关注Flume官网。在Configuration标签下有Flume Source,Flume Sinks,Flume Channels,分别对source、sink、channel组件的配置做了详细介绍。我们在配置的时候参考官网，稍加改动即可。下面就对常见配置方式举例分析：1.网络采集ag...

2020-02-23 21:04:52 366

原创【Sqoop】sqoop导入导出

本文简单介绍Sqoop如下操作：Import： rdbms导入HDFS; rdbms导入Hive； rdbms导入Hbase；Export： Hive导出到rdbms； Hbase导出到rdbms；其中，rdbms以mysql数据库为例。环境准备mysql中建库、建表并插入测试数据：create database userdb;use userdb;creat...

2020-02-22 00:19:20 285

原创【Sqoop】Sqoop job实现增量导入的原理

我们在使用Sqoop的增量导入时，需要配置三个参数：假设有这样的场景：使用Sqoop每天定时导出一张表（emp）的增量数据，其中emp的id列为自增列。那么此时有两种方式实现：(1) 每天收工配置last-value，手工调度；(2) 使用job，给定初始last-value，每天定时自动跑；相信大多数人会选择（2）种方式。为什么job可以给定一次last-value就可以自动抽取...

2020-02-21 20:21:32 1640

原创【HBase】Java API - 向表中插入数据

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Connection;import org.a...

2020-02-15 22:25:27 2389

原创【HBase】创建表-Java API操作

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;impor...

2020-02-15 22:02:05 2256 2

原创【汇编语言】进制转换

十进制转二进制1.整数除二取余，倒着写如：十进制9转换二进制9 ÷ 2 = 4…14 ÷ 2 = 2…02 ÷ 2 = 1…01 ÷ 2 = 0…1倒写余数，所以十进制9转换为二进制为：10012.小数乘二取整，顺序写如：十进制0.5转换二进制首先要明白，十进制小数转二进制仍然为小数，所以二进制左边为0.xx0.5 × 2 = 1.0 取整数部分“1”此时小数...

2020-02-15 14:36:54 4054 1

原创【Hive】多字符分隔

在创建Hive表时，一般我们会指定字段间的分隔符，如空格，\t，逗号等，这些是都单字符。那么，如果我们想要按照多个字符分隔，如##，|+|等，这时候就要用到如下两种方式：MultiDelimitSerDe解决多字符分隔创建表0: jdbc:hive2://node03:10000> create table test1 (id string, name string). . . ...

2020-02-09 11:22:52 1147 1

原创【MapReduce】MapReduce工作机制

一个mapreduce作业，一般分为两阶段执行：map阶段和reduce阶段，下面分别对这两阶段进行介绍。Map阶段Map阶段又分为五部分：读取文件阶段，MapTask阶段，collect阶段，溢写阶段，combine阶段。首先客户端把待处理文件分片信息、jar包信息、参数信息等提交到HDFS。然后Yarn集群接受任务，启动AppMaster把任务分配NodeManager，并由NodeM...

2020-02-09 00:44:53 536

原创【MapReduce】编程指导思想

MapReduce编程思想共分为8步：map阶段：2步shuffle阶段：4步reduce阶段：2步Map阶段第一步: 设置inputFormat类，将数据切分为k-v对，输入到第二步；第二步：自定义map逻辑，处理第一步中生成的k-v对，然后转换成新的的k-v进行输出；Shuffle阶段第三步：对输出的k-v进行分区，相同k的数据发往同一个reduce，相同k合并，v形成一个集合...

2020-02-08 16:24:13 356

原创【Yarn】工作机制及任务提交流程

本文以mr程序为例，解释yarn的工作机制及任务提交流程：0. mr程序提交任务到客户端所在节点；1.节点上的YarnRunner向ResourceManager申请一个Application；2. ResourceManager会把Application资源路径及application_id返回YarnRunner；3. 该程序将job运行所需资源提交到HDFS；4. 资源提交完毕后，...

2020-02-08 10:33:43 1559 1

原创【Hive】数据导出

Hive版本：Hive 1.1.0-cdh5.14.2INSERT导出到目录官方链接Standard syntax:INSERT OVERWRITE [LOCAL] DIRECTORY directory1[ROW FORMAT row_format] [STORED AS file_format] (Note: Only available starting with Hive 0....

2020-02-08 09:38:44 263

原创【Hive】数据导入方法

Hive版本：Hive 1.1.0-cdh5.14.21. INSERT插入1.1 单条插入INSERT INTO TABLE tablename [PARTITION (partcol1[=val1], partcol2[=val2] ...)] VALUES values_row [, values_row ...]举例如下：0: jdbc:hive2://node03:10000...

2020-02-06 11:21:10 517

SOWC 2014 Stat Tables_Table 9.xlsx

《Python 数据处理》第四章Excel实验文件，用于测试童工和童婚数量分析。

2018-05-15

population_data.json

用Python练习做世界人口地图的文件。《Python编程：从入门到实践》，数据可视化经典案例所需文件。

2017-10-19

Python Indent插件

此插件用于解决python自动缩进问题。 1. 解压压缩包 2. 把Python Indent文件夹和Python Indent.dll放在notepad++安装目录的plugins文件夹下 3. 重启notepad++ 4. 依次点击插件--Python Indent--Enable，将Enable打钩 5. 问题解决

2017-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人