- 博客(76)
- 收藏
- 关注
原创 MySql编码问题
一、mysql中的编码mysql> show variables like 'collation_%'; mysql> show variables like 'character_set_%'; 缺省是latin1编码,会导致中文乱码。修改库的编码:mysql> alter database db_name character set utf8;修改表的编码:mysql&g...
2018-05-21 21:05:16 2409
原创 sqoop各类命令示范笔记
/** 将mysql的表导入 hdfs **/bin/sqoop import \--connect jdbc:mysql://hdp-04:3306/userdb \--username root \--password root \--target-dir \/sqooptest \--fields-terminated-by ',' \--table emp \--spl...
2018-05-21 21:00:35 2180
原创 sqoop数据迁移工具
sqoop数据迁移工具1.1 概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等 1.2 工作机制将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对i...
2018-05-21 20:56:14 2395
原创 APP数据模拟处理流程—[窗口分析函数]
2018-05-19,唐尼,钢铁侠,360应用,纽约,v2.02018-05-19,唐尼,钢铁侠,360应用,纽约,v1.22018-05-19,唐尼,钢铁侠,360应用,纽约,v2.02018-05-19,唐尼,钢铁侠,360应用,纽约,v1.22018-05-19,唐尼,钢铁侠,安卓市场,纽约,v1.62018-05-19,唐尼,钢铁侠,360应用,纽约,v1.32018-05-1...
2018-05-21 20:49:19 2145
原创 APP数据模拟处理流程—[次日留存用户]
APP数据模拟处理流程—[次日留存用户]/*留存用户分析概念:昨日新增,今天还活跃逻辑思路:昨天在新用户表,今天在活跃用户表之中 ---->今日的次日留存用户 昨天在新用户表的人,今天还在活跃用户表中*/--数据建模 -->> 纪录跟活跃用户表相同的字段--建次日留存etl信息表:纪录跟活跃用户表相同的字段create tabl...
2018-05-21 20:40:20 1615
原创 APP数据模拟处理流程—[shell脚本]
#!/bin/bashday_str=`date -d '-1 day' +'%Y-%m-%d'`inpath=/app-log-data/data/$day_stroutpath=/app-log-data/clean/${day_str}-cleanhive_exec=/root/apps/hive-1.2.1/bin/hiveecho "准备清洗$day_str数据......"/root/...
2018-05-20 23:10:01 3991
原创 APP数据模拟处理流程—[总结篇]
1.进行数据清理 MapReduce#!/bin/bashday_str=`date -d '-1 day' + '%Y-%m-%d'`inpath=/app-log-data/data/$day_stroutpath=/app-log-data/clean/${day_str}-cleanecho "准备清洗$day_str数据..."/root/apps/hadoop-2.8.3/bin/ha...
2018-05-20 23:07:11 2997
原创 flume两级串联配置案例
flume两级串联配置案例tail-avro.conf:从tail命令获取数据发送到avro端口另一个节点可配置一个avro源来中继数据,发送外部存储################### Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/config...
2018-05-20 01:18:57 1980
原创 flume配置案例
flume配置案例dir-hdfs.conf:#定义三大组件的名称ag1.sources = source1ag1.sinks = sink1ag1.channels = channel1# 配置source组件ag1.sources.source1.type = spooldirag1.sources.source1.spoolDir = /root/log/ag1.sourc...
2018-05-20 01:16:09 1282
原创 HBASE客户端API操作
HBASE客户端API操作DDL代码:package cn.edu360.hbase.demo;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop....
2018-05-20 01:01:45 753
原创 HBASE精炼笔记总结—[基础篇]
1. HBASE1.1. 1/ 什么是HBASE1.1.1. 概念特性HBASE是一个数据库----可以提供数据的实时随机读写 HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库)l Hbase的表模型与关系型数据库的表模型不同:l Hbase的表没有固定的字段定义;l Hbase的表中每行存储的都是一些key-v...
2018-05-20 00:58:37 2864
原创 编程必会单词v2
error 错误while 当compiling 编译过程中statement: 语句failed 失败的semantic 语法的exception 异常line 行table 表not found 找不到tiny 微小的char 字符Loading 加载中data 数据from 从....file 文件fire 火,开火,发射recognize 识别<EOF> 没有正确结束pro...
2018-05-19 00:43:52 3361
原创 HIVE精炼笔记总结——[函数篇]
1. hive函数使用小技巧:测试函数的用法,可以专门准备一个专门的dual表create table dual(x string);insert into table dual values(''); 其实:直接用常量来测试函数即可select substr("abcdefg",1,3); hive的所有函数手册:https://cwiki.apache.org/confluence/disp...
2018-05-19 00:38:56 3642
原创 HIVE精炼笔记总结——[查询篇]
1. hive查询语法提示:在做小数据量查询测试时,可以让hive将mrjob提交给本地运行器运行,可以在hive会话中设置如下参数:hive> set hive.exec.mode.local.auto=true;1.1. 基本查询示例select * from t_access;select count(*) from t_access;select max(ip) from t_ac...
2018-05-19 00:34:40 3825
原创 HIVE精炼笔记总结——[类型篇]
1.1. 数据类型1.1.1. 数字类型TINYINT (1-bytesigned integer, from -128 to 127)SMALLINT (2-bytesigned integer, from -32,768 to 32,767)INT/INTEGER(4-byte signed integer, from -2,147,483,648 to 2,147,483,647)BIGI...
2018-05-19 00:30:43 3357
原创 HIVE精炼笔记总结——[建导篇]
1. hive建库建表与数据导入1.1. 建库hive中有一个默认的库:库名: default库目录:hdfs://hdp20-01:9000/user/hive/warehouse 新建库:create database db_order;库建好后,在hdfs中会生成一个库目录:hdfs://hdp20-01:9000/user/hive/warehouse/db_order.db 1.2. 建...
2018-05-19 00:26:31 3766
原创 HIVE精炼笔记总结——[使用篇]
hive使用方式1.1. 最基本使用方式启动一个hive交互shellbin/hivehive> 设置一些基本参数,让hive使用起来更便捷,比如:1、让提示符显示当前库:hive>set hive.cli.print.current.db=true;2、显示查询结果时显示字段名称:hive>set hive.cli.print.header=true; 但是这样设置只对当前会...
2018-05-19 00:19:28 3374
原创 HIVE精炼笔记总结——[启示篇]
1.什么是hivehive基本思想Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。Ø 直接使用hadoop所面临的问题 人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大 Ø 为什么要使用Hive 操作接口采用类SQL语法,提供快速开发的能力。 避免了去写MapReduce,减少开发人员的学习...
2018-05-19 00:14:10 3352
原创 HIVE简单快速入门——[开端篇]
1/ HIVE是什么?HIVE是一个可以将sql翻译为MR程序的工具HIVE支持用户将HDFS上的文件映射为表结构,然后用户就可以输入SQL对这些表(HDFS上的文件)进行查询分析HIVE将用户定义的库、表结构等信息存储hive的元数据库(可以是本地derby,也可以是远程mysql)中2/ HIVE的用途?解放大数据分析程序员,不用自己写大量的mr程序来分析数据,只需要写sql脚本即可HIVE可...
2018-05-17 20:25:11 4574
原创 编程必会单词v1
编程必会单词v1exception 异常bound 边界out of bounds 越界index 索引amount 总量serialize 序列化deserialize 反序列化serializable 可序列化的general 通常的exist 存在的project 工程workspace 工作空间error 错误Failed 失败了dependencies 依赖complet...
2018-05-17 20:12:15 4014
原创 hadoop-2.6.4-HA集群搭建
hadoop-2.6.4-HA集群搭建hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA前期准备就不详细说了,1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 /etc/hosts ######注意######如果你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等) /etc...
2018-05-17 19:38:00 4074
原创 利用ZooKeeper开发分布式应用系统案例--服务端与客户端实现
利用ZooKeeper开发分布式应用系统案例--服务端与客户端实现服务端代码:package cn.edu360.zk.distributesystem;import java.io.IOException;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import ...
2018-05-17 00:27:46 4427
原创 ZooKeeper的java客户端api的监听功能代码示范
ZooKeeper的java客户端api的监听功能代码示范package cn.edu360.zk.demo;import java.util.List;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Wa...
2018-05-17 00:24:21 3309
原创 ZooKeeper的java客户端api基本功能代码
ZooKeeper的java客户端api基本功能代码package cn.edu360.zk.demo;import java.io.IOException;import java.io.UnsupportedEncodingException;import java.util.List;import org.apache.zookeeper.CreateMode;import or...
2018-05-17 00:14:36 4193
原创 在Linux中ZooKeeper集群启动或者暂停的脚本
#!/bin/bashfor host in hadoop1 hadoop2 hadoop3doecho "${host}:$1ing...."ssh $host "source /etc/profile;/root/apps/zookeeper-3.4.6/bin/zkServer.sh $1"donesleep 2for host in hadoop1 hadoop2 h...
2018-05-17 00:12:26 5361
原创 轻松上手ZooKeeper集群搭建
Step1:首先给Linux上传ZooKeeper安装包,然后解压;Step2:进入到你所安装的包的路径里面,进入conf配置文件的目录,把zoo_sample.cfg改成zoo.cfg修改conf/zoo.cfg# The number of milliseconds of each tick tickTime=2000 # The number of ticks that the init...
2018-05-16 23:24:33 4860
原创 MapReduce编程小案例.11th—数据倾斜场景part2
MapReduce编程小案例.11th—数据倾斜场景数据:a a a a a a b b b a a aa a a a c c b c a a a ca b b c a a d d e e f ff g a a a b a b h h g j 需求:需要做wordcount但是,会有一个问题存在:a特别多,负责处理a这个单词数据的reduce worker就会很累(负载不均衡,过大)思考:如何处理...
2018-05-16 22:40:43 2150
原创 MapReduce编程小案例.11th—数据倾斜场景part1
MapReduce编程小案例.11th—数据倾斜场景数据:a a a a a a b b b a a a a a a a c c b c a a a c a b b c a a d d e e f f f g a a a b a b h h g j 需求:需要做wordcount但是,会有一个问题存在:a特别多,负责处理a这个单词数据的reduce worker就会很累(负载不均衡,过大...
2018-05-16 22:36:24 2188
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人