RobertDowneyLm-CSDN博客

原创 MySql编码问题

一、mysql中的编码mysql> show variables like 'collation_%'; mysql> show variables like 'character_set_%'; 缺省是latin1编码，会导致中文乱码。修改库的编码：mysql> alter database db_name character set utf8;修改表的编码：mysql&g...

2018-05-21 21:05:16 2409

原创 sqoop各类命令示范笔记

/** 将mysql的表导入 hdfs **/bin/sqoop import \--connect jdbc:mysql://hdp-04:3306/userdb \--username root \--password root \--target-dir \/sqooptest \--fields-terminated-by ',' \--table emp \--spl...

2018-05-21 21:00:35 2180

sqoop数据迁移工具1.1 概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库mysql等 1.2 工作机制将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对i...

2018-05-21 20:56:14 2395

原创 APP数据模拟处理流程—[窗口分析函数]

2018-05-19,唐尼,钢铁侠,360应用,纽约,v2.02018-05-19,唐尼,钢铁侠,360应用,纽约,v1.22018-05-19,唐尼,钢铁侠,360应用,纽约,v2.02018-05-19,唐尼,钢铁侠,360应用,纽约,v1.22018-05-19,唐尼,钢铁侠,安卓市场,纽约,v1.62018-05-19,唐尼,钢铁侠,360应用,纽约,v1.32018-05-1...

2018-05-21 20:49:19 2145

原创 APP数据模拟处理流程—[次日留存用户]

APP数据模拟处理流程—[次日留存用户]/*留存用户分析概念:昨日新增，今天还活跃逻辑思路：昨天在新用户表，今天在活跃用户表之中 ---->今日的次日留存用户昨天在新用户表的人，今天还在活跃用户表中*/--数据建模 -->> 纪录跟活跃用户表相同的字段--建次日留存etl信息表：纪录跟活跃用户表相同的字段create tabl...

2018-05-21 20:40:20 1615

原创 APP数据模拟处理流程—[shell脚本]

#!/bin/bashday_str=`date -d '-1 day' +'%Y-%m-%d'`inpath=/app-log-data/data/$day_stroutpath=/app-log-data/clean/${day_str}-cleanhive_exec=/root/apps/hive-1.2.1/bin/hiveecho "准备清洗$day_str数据......"/root/...

2018-05-20 23:10:01 3991

原创 APP数据模拟处理流程—[总结篇]

1.进行数据清理 MapReduce#!/bin/bashday_str=`date -d '-1 day' + '%Y-%m-%d'`inpath=/app-log-data/data/$day_stroutpath=/app-log-data/clean/${day_str}-cleanecho "准备清洗$day_str数据..."/root/apps/hadoop-2.8.3/bin/ha...

2018-05-20 23:07:11 2997

原创 flume两级串联配置案例

flume两级串联配置案例tail-avro.conf：从tail命令获取数据发送到avro端口另一个节点可配置一个avro源来中继数据，发送外部存储################### Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/config...

2018-05-20 01:18:57 1980

原创 flume配置案例

flume配置案例dir-hdfs.conf：#定义三大组件的名称ag1.sources = source1ag1.sinks = sink1ag1.channels = channel1# 配置source组件ag1.sources.source1.type = spooldirag1.sources.source1.spoolDir = /root/log/ag1.sourc...

2018-05-20 01:16:09 1282

原创 flume多级串联示意图

2018-05-20 01:13:54 1580

原创 flume工作机制示意图

2018-05-20 01:12:09 2295

原创 HBASE客户端API操作

HBASE客户端API操作DDL代码：package cn.edu360.hbase.demo;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop....

2018-05-20 01:01:45 753

原创 HBASE精炼笔记总结—[基础篇]

1. HBASE1.1. 1/ 什么是HBASE1.1.1. 概念特性HBASE是一个数据库----可以提供数据的实时随机读写 HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同，它是一个NoSQL数据库（非关系型数据库）l Hbase的表模型与关系型数据库的表模型不同：l Hbase的表没有固定的字段定义；l Hbase的表中每行存储的都是一些key-v...

2018-05-20 00:58:37 2864

原创布隆过滤器的思想示意图

2018-05-20 00:51:43 1516

原创 HBASE整体工作机制示意图

2018-05-19 00:51:21 3901

原创 HBASE数据表的结构示意图

2018-05-19 00:49:54 3599

原创一张图解释分布式中各种数据库之间的差别比较

2018-05-19 00:48:42 4810

原创编程必会单词v2

error 错误while 当compiling 编译过程中statement: 语句failed 失败的semantic 语法的exception 异常line 行table 表not found 找不到tiny 微小的char 字符Loading 加载中data 数据from 从....file 文件fire 火，开火，发射recognize 识别<EOF> 没有正确结束pro...

2018-05-19 00:43:52 3361

原创 HIVE精炼笔记总结——[函数篇]

1. hive函数使用小技巧：测试函数的用法，可以专门准备一个专门的dual表create table dual(x string);insert into table dual values(''); 其实：直接用常量来测试函数即可select substr("abcdefg",1,3); hive的所有函数手册：https://cwiki.apache.org/confluence/disp...

2018-05-19 00:38:56 3642

原创 HIVE精炼笔记总结——[查询篇]

1. hive查询语法提示：在做小数据量查询测试时，可以让hive将mrjob提交给本地运行器运行，可以在hive会话中设置如下参数：hive> set hive.exec.mode.local.auto=true;1.1. 基本查询示例select * from t_access;select count(*) from t_access;select max(ip) from t_ac...

2018-05-19 00:34:40 3825

原创 HIVE精炼笔记总结——[类型篇]

1.1. 数据类型1.1.1. 数字类型TINYINT (1-bytesigned integer, from -128 to 127)SMALLINT (2-bytesigned integer, from -32,768 to 32,767)INT/INTEGER(4-byte signed integer, from -2,147,483,648 to 2,147,483,647)BIGI...

2018-05-19 00:30:43 3357

原创 HIVE精炼笔记总结——[建导篇]

1. hive建库建表与数据导入1.1. 建库hive中有一个默认的库：库名： default库目录：hdfs://hdp20-01:9000/user/hive/warehouse 新建库：create database db_order;库建好后，在hdfs中会生成一个库目录：hdfs://hdp20-01:9000/user/hive/warehouse/db_order.db 1.2. 建...

2018-05-19 00:26:31 3766

原创 HIVE精炼笔记总结——[使用篇]

hive使用方式1.1. 最基本使用方式启动一个hive交互shellbin/hivehive> 设置一些基本参数，让hive使用起来更便捷，比如：1、让提示符显示当前库：hive>set hive.cli.print.current.db=true;2、显示查询结果时显示字段名称：hive>set hive.cli.print.header=true; 但是这样设置只对当前会...

2018-05-19 00:19:28 3374

原创 HIVE精炼笔记总结——[启示篇]

1.什么是hivehive基本思想Hive是基于Hadoop的一个数据仓库工具(离线)，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Ø 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大 Ø 为什么要使用Hive 操作接口采用类SQL语法，提供快速开发的能力。避免了去写MapReduce，减少开发人员的学习...

2018-05-19 00:14:10 3352

原创 HIVE简单快速入门——[开端篇]

1/ HIVE是什么？HIVE是一个可以将sql翻译为MR程序的工具HIVE支持用户将HDFS上的文件映射为表结构，然后用户就可以输入SQL对这些表（HDFS上的文件）进行查询分析HIVE将用户定义的库、表结构等信息存储hive的元数据库（可以是本地derby，也可以是远程mysql）中2/ HIVE的用途？解放大数据分析程序员，不用自己写大量的mr程序来分析数据，只需要写sql脚本即可HIVE可...

2018-05-17 20:25:11 4574

原创编程必会单词v1

编程必会单词v1exception 异常bound 边界out of bounds 越界index 索引amount 总量serialize 序列化deserialize 反序列化serializable 可序列化的general 通常的exist 存在的project 工程workspace 工作空间error 错误Failed 失败了dependencies 依赖complet...

2018-05-17 20:12:15 4014

原创 hadoop-2.6.4-HA集群搭建

hadoop-2.6.4-HA集群搭建hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA前期准备就不详细说了，1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 /etc/hosts ######注意######如果你们公司是租用的服务器或是使用的云主机（如华为用主机、阿里云主机等） /etc...

2018-05-17 19:38:00 4074

原创一张图解释hadoop的HA工作机制

2018-05-17 19:24:31 4612 1

原创利用ZooKeeper开发分布式应用系统案例--服务端与客户端实现

利用ZooKeeper开发分布式应用系统案例--服务端与客户端实现服务端代码：package cn.edu360.zk.distributesystem;import java.io.IOException;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import ...

2018-05-17 00:27:46 4427

原创 ZooKeeper的java客户端api的监听功能代码示范

ZooKeeper的java客户端api的监听功能代码示范package cn.edu360.zk.demo;import java.util.List;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Wa...

2018-05-17 00:24:21 3309

原创 ZooKeeper的java客户端api基本功能代码

ZooKeeper的java客户端api基本功能代码package cn.edu360.zk.demo;import java.io.IOException;import java.io.UnsupportedEncodingException;import java.util.List;import org.apache.zookeeper.CreateMode;import or...

2018-05-17 00:14:36 4193

原创在Linux中ZooKeeper集群启动或者暂停的脚本

#!/bin/bashfor host in hadoop1 hadoop2 hadoop3doecho "${host}:$1ing...."ssh $host "source /etc/profile;/root/apps/zookeeper-3.4.6/bin/zkServer.sh $1"donesleep 2for host in hadoop1 hadoop2 h...

2018-05-17 00:12:26 5361

原创轻松上手ZooKeeper集群搭建

Step1：首先给Linux上传ZooKeeper安装包，然后解压；Step2：进入到你所安装的包的路径里面，进入conf配置文件的目录，把zoo_sample.cfg改成zoo.cfg修改conf/zoo.cfg# The number of milliseconds of each tick tickTime=2000 # The number of ticks that the init...

2018-05-16 23:24:33 4860

原创 ZooKeeper集群结构示意图

2018-05-16 23:14:10 2473

原创一张ZooKeeper案例示意图

2018-05-16 23:12:47 4501

原创 ZooKeeper的功能和应用场景图示

2018-05-16 23:09:38 5053

原创一张图解释mapreduce程序在YARN上启动-运行-注销的全流程

2018-05-16 23:01:05 4359

原创一张图复习MapReduce知识要点

2018-05-16 22:45:20 5584 1

原创 MapReduce编程小案例.11th—数据倾斜场景part2

MapReduce编程小案例.11th—数据倾斜场景数据：a a a a a a b b b a a aa a a a c c b c a a a ca b b c a a d d e e f ff g a a a b a b h h g j 需求：需要做wordcount但是，会有一个问题存在：a特别多，负责处理a这个单词数据的reduce worker就会很累（负载不均衡，过大）思考：如何处理...

2018-05-16 22:40:43 2150

原创 MapReduce编程小案例.11th—数据倾斜场景part1

MapReduce编程小案例.11th—数据倾斜场景数据：a a a a a a b b b a a a a a a a c c b c a a a c a b b c a a d d e e f f f g a a a b a b h h g j 需求：需要做wordcount但是，会有一个问题存在：a特别多，负责处理a这个单词数据的reduce worker就会很累（负载不均衡，过大...

2018-05-16 22:36:24 2188

空空如也

空空如也