干货教程
文章平均质量分 59
RobertDowneyLm
I hope I can protect the one thing I can't live without. ----AVENGERS :Tony Stark
展开
-
MapReduce编程小案例.10th—join算法改进
MapReduce编程小案例.10th—join算法改进利用Partitioner + CompareTo + GroupingComparator 高效实现 可以参考案例9th;直接上实现代码:JoinBeanpackage cn.edu360.mr.join.improve;import java.io.DataInput;import java.io.DataOutput;impor...原创 2018-05-16 00:13:24 · 5667 阅读 · 0 评论 -
flume多级串联示意图
原创 2018-05-20 01:13:54 · 1579 阅读 · 0 评论 -
HBASE客户端API操作
HBASE客户端API操作DDL代码:package cn.edu360.hbase.demo;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop....原创 2018-05-20 01:01:45 · 751 阅读 · 0 评论 -
HBASE精炼笔记总结—[基础篇]
1. HBASE1.1. 1/ 什么是HBASE1.1.1. 概念特性HBASE是一个数据库----可以提供数据的实时随机读写 HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库)l Hbase的表模型与关系型数据库的表模型不同:l Hbase的表没有固定的字段定义;l Hbase的表中每行存储的都是一些key-v...原创 2018-05-20 00:58:37 · 2861 阅读 · 0 评论 -
轻松解决Maven出现依赖报错问题
很多人在使用Maven从远程下载jar包的时候,由于网络不稳定或者其他原因,导致出现依赖报错问题,导致运行不起来;其实有几种简单粗暴的方法可以解决:1.更新Maven Project2.如果第一种方法解决不了的话,如果是提示插件不全,可以到本地的Maven文件夹,把plungin文件夹删了,然后再重新下载;3.如果第一第二种方法解决不了,可能在pom.xml中出现依赖问题,提示jar包不能使用,可...原创 2018-05-13 21:15:19 · 19610 阅读 · 1 评论 -
MapReduce的运行平台—YARN快速理解
mapreduce程序应该是在很多机器上并行启动,而且先执行maptask,当众多的maptask都处理完自己的数据后,还需要启动众多的reduce task,这个过程如果用用户自己手动调度不太现实,需要一个自动化的调度平台——hadoop中就为运行mapreduce之类的分布式运算程序开发了一个自动化调度平台——YARN。YARN的基本概念yarn是一个分布式程序的运行调度平台yarn中有两大核...原创 2018-05-13 20:46:10 · 4590 阅读 · 1 评论 -
通过经典案例WordCount代码快速上手MapReduce分布式计算框架
mapreduce快速上手小案例:统计HDFS的/wordcount/input/文件中的每个单词出现的次数——wordcount明白了一点:可以在任何地方运行程序,访问HDFS上的文件并进行统计运算,并且可以把统计的结果写回HDFS的结果文件中;但是,进一步思考:如果文件又多又大,用上面那个程序有什么弊端?慢!因为只有一台机器在进行运算处理! 如何变得更快?核心思想:让我们的运算程序并行在多台机...原创 2018-05-13 20:34:05 · 3254 阅读 · 0 评论 -
HBASE整体工作机制示意图
原创 2018-05-19 00:51:21 · 3899 阅读 · 0 评论 -
HBASE数据表的结构示意图
原创 2018-05-19 00:49:54 · 3596 阅读 · 0 评论 -
一张图解释分布式中各种数据库之间的差别比较
原创 2018-05-19 00:48:42 · 4807 阅读 · 0 评论 -
编程必会单词v2
error 错误while 当compiling 编译过程中statement: 语句failed 失败的semantic 语法的exception 异常line 行table 表not found 找不到tiny 微小的char 字符Loading 加载中data 数据from 从....file 文件fire 火,开火,发射recognize 识别<EOF> 没有正确结束pro...原创 2018-05-19 00:43:52 · 3359 阅读 · 0 评论 -
HIVE精炼笔记总结——[函数篇]
1. hive函数使用小技巧:测试函数的用法,可以专门准备一个专门的dual表create table dual(x string);insert into table dual values(''); 其实:直接用常量来测试函数即可select substr("abcdefg",1,3); hive的所有函数手册:https://cwiki.apache.org/confluence/disp...原创 2018-05-19 00:38:56 · 3640 阅读 · 0 评论 -
HIVE精炼笔记总结——[查询篇]
1. hive查询语法提示:在做小数据量查询测试时,可以让hive将mrjob提交给本地运行器运行,可以在hive会话中设置如下参数:hive> set hive.exec.mode.local.auto=true;1.1. 基本查询示例select * from t_access;select count(*) from t_access;select max(ip) from t_ac...原创 2018-05-19 00:34:40 · 3824 阅读 · 0 评论 -
flume配置案例
flume配置案例dir-hdfs.conf:#定义三大组件的名称ag1.sources = source1ag1.sinks = sink1ag1.channels = channel1# 配置source组件ag1.sources.source1.type = spooldirag1.sources.source1.spoolDir = /root/log/ag1.sourc...原创 2018-05-20 01:16:09 · 1281 阅读 · 0 评论 -
flume两级串联配置案例
flume两级串联配置案例tail-avro.conf:从tail命令获取数据发送到avro端口另一个节点可配置一个avro源来中继数据,发送外部存储################### Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/config...原创 2018-05-20 01:18:57 · 1977 阅读 · 0 评论 -
MapReduce编程小案例.1st—求取手机号码上下限及总流量
MapReduce编程小案例.1st—求取手机号码上下限及总流量利用MapReduce处理一个小案例,如下是一批手机号码上网所保存在日志的流量信息:1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 1382654...原创 2018-05-14 21:46:38 · 5132 阅读 · 0 评论 -
MapReduce编程小案例.9th—join算法
MapReduce编程小案例.9th—join算法数据:有订单数据:order001,u001 order002,u001 order003,u005 order004,u002 order005,u003 order006,u004 有用户数据:u001,senge,18,angelababy u002,laozhao,48,ruhua u003,xiaoxu,16,chunge...原创 2018-05-16 00:04:48 · 2522 阅读 · 0 评论 -
MapReduce编程小案例.8th—替换默认的文本输入输出组件为sequence文件输入输出组件
MapReduce编程小案例.8th—替换默认的文本输入输出组件为sequence文件输入输出组件实现代码:同样分2步实现package cn.edu360.mr.index.sequence;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs...原创 2018-05-15 19:19:20 · 4237 阅读 · 0 评论 -
MapReduce编程小案例.7th—求用户之间的共同好友及有哪些好友
MapReduce编程小案例.7th—求用户之间的共同好友及有哪些好友需求:有如下一组数据哪些用户两两之间有共同好友,及共同好友都是哪些人B:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J需要得到...原创 2018-05-15 18:59:19 · 2262 阅读 · 0 评论 -
MapReduce编程小案例.6th—高效求分组topn的代码实现
MapReduce编程小案例.6th—高效求分组topn的代码实现需求:有如下一组数据:order001,u001,小米6,1999.9,2 order001,u001,雀巢咖啡,99.0,2 order001,u001,安慕希,250.0,2 order001,u001,经典红双喜,200.0,4 order001,u001,防水电脑包,400.0,2 order002,u0...原创 2018-05-15 18:48:59 · 5328 阅读 · 1 评论 -
MapReduce编程小案例.5th—分组topn的简单实现
MapReduce编程小案例.5th—分组topn的简单实现需求:有如下一组数据:order001,u001,小米6,1999.9,2order001,u001,雀巢咖啡,99.0,2order001,u001,安慕希,250.0,2order001,u001,经典红双喜,200.0,4order001,u001,防水电脑包,400.0,2order002,u002,小米手环,199.0...原创 2018-05-15 18:37:41 · 2919 阅读 · 0 评论 -
MySql编码问题
一、mysql中的编码mysql> show variables like 'collation_%'; mysql> show variables like 'character_set_%'; 缺省是latin1编码,会导致中文乱码。修改库的编码:mysql> alter database db_name character set utf8;修改表的编码:mysql&g...原创 2018-05-21 21:05:16 · 2407 阅读 · 0 评论 -
sqoop各类命令示范笔记
/** 将mysql的表导入 hdfs **/bin/sqoop import \--connect jdbc:mysql://hdp-04:3306/userdb \--username root \--password root \--target-dir \/sqooptest \--fields-terminated-by ',' \--table emp \--spl...原创 2018-05-21 21:00:35 · 2179 阅读 · 0 评论 -
sqoop数据迁移工具
sqoop数据迁移工具1.1 概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等 1.2 工作机制将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对i...原创 2018-05-21 20:56:14 · 2394 阅读 · 0 评论 -
APP数据模拟处理流程—[次日留存用户]
APP数据模拟处理流程—[次日留存用户]/*留存用户分析概念:昨日新增,今天还活跃逻辑思路:昨天在新用户表,今天在活跃用户表之中 ---->今日的次日留存用户 昨天在新用户表的人,今天还在活跃用户表中*/--数据建模 -->> 纪录跟活跃用户表相同的字段--建次日留存etl信息表:纪录跟活跃用户表相同的字段create tabl...原创 2018-05-21 20:40:20 · 1612 阅读 · 0 评论 -
MapReduce编程小案例.4th—倒排索引创建
MapReduce编程小案例.4th—倒排索引创建需求:有大量的文本文档,如下所示:a.txthello tom hello jim hello kitty hello rose b.txthello jerry hello jim hello kitty hello jack c.txthello jerry hello java hello c++ hello c++ ...原创 2018-05-14 23:47:09 · 4497 阅读 · 0 评论 -
MapReduce编程小案例.3rd—对网站访问总次数全排序
MapReduce编程小案例.3rd—对网站访问总次数全排序利用MapReduce处理一个小案例,如下是一批网站的访问次数信息:2018/05/11 qq.com/a2018/05/11 qq.com/bx2018/05/11 qq.com/by2018/05/11 qq.com/by32018/05/11 qq.com/news2018/05/11 sina.com/news/soca...原创 2018-05-14 22:12:52 · 1959 阅读 · 0 评论 -
MapReduce编程小案例.2nd—求取网站访问次数Top.N
MapReduce编程小案例.2nd—求取网站访问次数Top.N利用MapReduce处理一个小案例,如下是一批网站的访问次数信息:2018/05/11 qq.com/a2018/05/11 qq.com/bx2018/05/11 qq.com/by2018/05/11 qq.com/by32018/05/11 qq.com/news2018/05/11 sina.com/news/so...原创 2018-05-14 21:59:56 · 2699 阅读 · 0 评论 -
HIVE精炼笔记总结——[类型篇]
1.1. 数据类型1.1.1. 数字类型TINYINT (1-bytesigned integer, from -128 to 127)SMALLINT (2-bytesigned integer, from -32,768 to 32,767)INT/INTEGER(4-byte signed integer, from -2,147,483,648 to 2,147,483,647)BIGI...原创 2018-05-19 00:30:43 · 3357 阅读 · 0 评论 -
HIVE精炼笔记总结——[建导篇]
1. hive建库建表与数据导入1.1. 建库hive中有一个默认的库:库名: default库目录:hdfs://hdp20-01:9000/user/hive/warehouse 新建库:create database db_order;库建好后,在hdfs中会生成一个库目录:hdfs://hdp20-01:9000/user/hive/warehouse/db_order.db 1.2. 建...原创 2018-05-19 00:26:31 · 3763 阅读 · 0 评论 -
轻松上手ZooKeeper集群搭建
Step1:首先给Linux上传ZooKeeper安装包,然后解压;Step2:进入到你所安装的包的路径里面,进入conf配置文件的目录,把zoo_sample.cfg改成zoo.cfg修改conf/zoo.cfg# The number of milliseconds of each tick tickTime=2000 # The number of ticks that the init...原创 2018-05-16 23:24:33 · 4858 阅读 · 0 评论 -
ZooKeeper集群结构示意图
原创 2018-05-16 23:14:10 · 2472 阅读 · 0 评论 -
一张ZooKeeper案例示意图
原创 2018-05-16 23:12:47 · 4500 阅读 · 0 评论 -
ZooKeeper的功能和应用场景图示
原创 2018-05-16 23:09:38 · 5051 阅读 · 0 评论 -
一张图解释mapreduce程序在YARN上启动-运行-注销的全流程
原创 2018-05-16 23:01:05 · 4357 阅读 · 0 评论 -
一张图复习MapReduce知识要点
原创 2018-05-16 22:45:20 · 5582 阅读 · 1 评论 -
MapReduce编程小案例.11th—数据倾斜场景part2
MapReduce编程小案例.11th—数据倾斜场景数据:a a a a a a b b b a a aa a a a c c b c a a a ca b b c a a d d e e f ff g a a a b a b h h g j 需求:需要做wordcount但是,会有一个问题存在:a特别多,负责处理a这个单词数据的reduce worker就会很累(负载不均衡,过大)思考:如何处理...原创 2018-05-16 22:40:43 · 2149 阅读 · 0 评论 -
MapReduce编程小案例.11th—数据倾斜场景part1
MapReduce编程小案例.11th—数据倾斜场景数据:a a a a a a b b b a a a a a a a c c b c a a a c a b b c a a d d e e f f f g a a a b a b h h g j 需求:需要做wordcount但是,会有一个问题存在:a特别多,负责处理a这个单词数据的reduce worker就会很累(负载不均衡,过大...原创 2018-05-16 22:36:24 · 2186 阅读 · 0 评论 -
Vmware11 安装Centos 6Minimal 教程
1 打开vmware虚拟机选择新建虚拟机2 选择自定义安装3 选择稍后安装操作系统4 选择操作系统及版本5 命名虚拟机6 配置处理器和内存7 选择网络类型8 选择控制器类型和磁盘类型9 分配磁盘空间10 指定磁盘文件已创建完成,但还不能使用此时启动会失败,先去本地找iso镜像文件,本地没有去网络下载,下载实际做的是,发一个广播,在所在网段找寻是否有提供镜像的server11 挂载镜像挂载完成之后,...原创 2018-05-09 22:16:30 · 1449 阅读 · 0 评论 -
Linux配置SSH免登录
scp & ssh集群模式下,各节点之间如何方便的拷贝文件?命令格式:scp file 远程用户名@远程服务器IP:~/ (注意:冒号和目录之间不能有空格)如果拷贝目录,需要加-r 选项。 使用root用户eg: scp /etc/profile root@node2:/etceg: scp -r /usr/jdk1.8 node2:/usr/javaeg:scp he...原创 2018-05-09 22:03:53 · 5677 阅读 · 0 评论