hadoop/hive/hbase
文章平均质量分 84
通过 hadoop 基础和源码介绍,用最简单的例子去实践mapreduce,并引入各种问题,以及一些求解思路,带着问题去入门大数据
master-dragon
weixin:dwl_1270530306
展开
-
Hbase入门整理
目录hbase 安装Hbase 基础Hbase 架构Hbase 数据模型表的各种操作创建并显示表修改/查看表结构输入数据get查看数据put更新数据get查询scan查询过滤器RowFilterValueFilter附:show_filters附:filter中的比较运算符hbase 安装配置文件 conf/hbase-env.shexport JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_171.jdk/Contents/Homeex原创 2021-01-17 14:49:01 · 350 阅读 · 0 评论 -
hive基础 & hive sql练习
hadoop@vm2:~/apache-hive-0.14.0-bin$ lltotal 400drwxrwxr-x 8 hadoop hadoop 4096 Apr 16 04:45 ./drwxr-xr-x 28 hadoop hadoop 4096 Apr 16 07:04 ../drwxrwxr-x 3 hadoop hadoop 4096 Apr 16 04:4...原创 2019-04-17 13:05:20 · 694 阅读 · 0 评论 -
Hive word count 实践
mysql> select count(1) from test_user where username like '%1%';+----------+| count(1) |+----------+| 5217032 |+----------+1 row in set (3.12 sec)mysql>mysql> show index from tes...转载 2020-03-26 00:29:12 · 241 阅读 · 0 评论 -
大文本文件(接近7GB): 统计频数,Top K问题求解(二)
目录说明原始输入word count MR & 输出输出MR日志TopK 求解输入输出附:Java代码说明本文是接着上一篇博文:大文本文件(接近7GB): 统计频数,Top K问题求解,用Hadoop mapreduce 处理求解说明,标题沿用了上一篇的原始输入5.6G的原始txt数据,hdfs的block size=128MB,原始文件被分成了48个blockword coun...原创 2020-05-01 17:32:23 · 489 阅读 · 0 评论 -
大文本文件(接近7GB): 统计频数,Top K问题求解
实践如下:产生了一个1G行,每行一个[0,100000]区间的整数top n 求解:大文件分成小文件把这个7G左右的大文件,按照读入数字的hashcode值分成1024个小文件(每个文件平均最大就7M左右)小文件统计对每个小文件,可以用堆,hash,内部排序等等方法进行处理;原创 2017-11-14 15:35:54 · 3991 阅读 · 2 评论 -
hadoop yarn
目录hadoop 1.0 JobTrackeryarn类比图理解架构hadoop 1.0 JobTrackerhadoop 1.0,图书《Hadoop技术内幕:深入理解MapReduce架构设计与实现原理》缺点:JobTracker 存在单点故障,扩容有限TaskTracker端,以Map/Reduce task的数目作为资源的表示过于简单,没有考虑CPU,内存(即真正的计算资源只能运行MapReduce;TaskTracker端, 把资源强制划分为了Map task slot 和 Redu原创 2020-05-14 10:01:44 · 412 阅读 · 0 评论 -
hadoop mapreduce有哪些地方使用了排序?
前言如题:hadoop mapreduce 整个过程中有哪些排序?这是个经典问题,且排序也是在大学学习《数据结构》这门课程中专门的一个章节,也是对排序以及其使用场景的加深源码部分仍然是先学习hadoop 简单的MapReduce源码分析(源码&流程&word count日志) 一文,然后直接来说说有哪些排序哪些排序?回忆MapTask的流程,基本如下且应当知道mapTask的输出,类似如下(按分区,且分区内key是按一定顺序的)输入经过map处理后是<K,V,P>原创 2020-05-09 20:55:42 · 371 阅读 · 0 评论 -
hadoop自定义分区&数据倾斜问题引入(仍然是wordcount 例子实践)
输入输出说明HDFS Block: 128Mwords_skew: 1.4G 大概 11块还多点,所以Block 0…11(共 12 个 block)最后单词计数结果abc 19178419count 19168329hadoop 19173414hello 153388549ok 19178346test 19174161world 19174238MR log20/...原创 2020-05-09 00:23:03 · 578 阅读 · 0 评论 -
Hadoop 两张表,三种 join 方式的实践
// TODO后续需要结合spark join 对比理解问题引入这也是网上搜出来的大部分订单表(orderId, proId, amount)1001 01 11002 02 21003 03 31004 01 41005 02 51006 03 6产品表(proId, proName)01 小米02 华为03 格力想要的join结果(即某个订单,属于哪个...原创 2020-05-04 22:57:25 · 578 阅读 · 0 评论 -
Hadoop MR(In English)
参考文档https://netjs.blogspot.com/2018/02/how-mapreduce-works-in-hadoop.htmlMap and Reduce tasks in Hadoopinput splits in Hadoop(processed by the map tasks in a completely parallel manner)Map task&l...转载 2020-03-15 10:10:20 · 203 阅读 · 0 评论 -
hadoop MapReduce源码分析(源码流程&word count日志)
工具准备jdk-8u151-linux-x64.tar.gzhadoop-2.7.4.tar.gzcentos64bit修改hostname=centos(/etc/sysconfig/network) /etc/hosts中添加映射(ip -> hostname)192.168.14.142 centos环境配置jdk ,hadoop安装都只需要直接解压,然后配置环境变量检测就行/e原创 2017-11-13 10:31:34 · 892 阅读 · 0 评论 -
hadoop 简单的MapReduce Java Application 编写实践
主要参考如下两篇文章win7, hadoop2.5.2环境配置 http://blog.csdn.net/makeryan/article/details/69257996求每年最高气温的mapreduce实例 http://blog.csdn.net/zhangt85/article/details/42077281如下是我的个人实践工具准备jdkhadoo...转载 2017-11-06 15:50:30 · 697 阅读 · 0 评论 -
hadoop 各种概念整理
http://hadoop.apache.org/HadoopHadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data se...转载 2017-11-07 13:53:39 · 46938 阅读 · 3 评论 -
hadoop集群 虚拟机配置
三台 ubuntu 14.04 32bit 机器配置/etc/hostname修改主机名三台机器如下 ip 主机名 用户 用户组 192.168.226.128 vm2 hadoop hadoop 192.168.226.129 vm3 hadoop hadoop 192.168.226.130 vm4 hadoop hadoopsud原创 2018-01-01 12:12:48 · 1008 阅读 · 0 评论 -
Hadoop 1.0.0源码阅读(eclipse搭建环境)
图书《hadoop 技术内幕: 深入解析Hadoop Common和HDFS》windows环境jdkantCygwinhadoop-1.0.0.tar.gzeclipse 解压hadoop-1.0.0.tar.gz,Cygwin进入目录后执行 ant eclipse错误1 ant-eclipse-1.0.bin.tar.bz2下载可能超时,直接本地下载后放到hadoop-1.0.0原创 2018-04-20 12:40:32 · 1122 阅读 · 1 评论