
Hadoop生态核心技术
文章平均质量分 84
常耀斌
CTO,AI科学家。2024年,清华大学出版社发行《大数据架构之道和项目实战》《AI赋能企业数字化转型》《深度学习和大模型实战》
展开
-
Sqoop导入Hbase案例实战
创建Mysql下的表sports,语句如下:CREATE TABLE `sports` ( `id` int(10) NOT NULL AUTO_INCREMENT COMMENT 'id', `phone` varchar(20) COLLATE utf8_bin DEFAULT NULL COMMENT '手机号', `deviceID` varchar(50) COLLATE...原创 2018-09-09 13:38:24 · 935 阅读 · 0 评论 -
Flume工作原理详解
Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件、socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一般的采集需求,通过对flume的简单配置即可实现。Flume针对特殊场景也具备良好的自定义扩展能力,所以flume可以适用于大部分的日常数据采集场景。Flume的运行原理是:F...原创 2018-07-26 09:22:14 · 13995 阅读 · 4 评论 -
Sqoop 数据迁移案例
Sqoop 数据迁移工具定义 主要用于在 Hadoop(Hive)和传统数据库(mysql 等)之间进行数据的传递层实现由 MR 完成(严格来说,只执行 map,没有 reduce)部署 只需要部署在一台服务器上,作为程序提交给 YARN配置 已在 Hadoop 集群中配置,免配置(可以在 sqoop-site.xml 个性化配置)第三方库 需要在 sqoop 的 lib 目录下添加 ...原创 2018-07-25 13:57:45 · 542 阅读 · 0 评论 -
Hbase安装详细步骤实战
上传首先确保用户是hadoop,用工具将hbase安装包hbase-0.99.2-bin.tar.gz上传到/home/hadoop下,确保hbase-0.99.2-bin.tar.gz的用户是hadoop,如果不是,执行chown命令解压su – hadooptar –zxvf hbase-0.99.2-bin.tar.gz重命名mv hbase-0.99.2 hbas...原创 2018-07-31 14:29:30 · 534 阅读 · 0 评论 -
MapReduce图解工作原理
原创 2018-07-31 11:24:31 · 387 阅读 · 0 评论 -
Hadoop的shuffle原理和过程图解
wordcount为例详细阐述shuffle的实现过程1. 对HDFS输入的文件进行切割为KV形式2.在mapper方法中执行,分割单词为KV形式。3.shuffle在Map端的三个操作:partition(多节点的相同K合并),sort(键值对哈希码排序),combine(单节点上相同K合并)4.shuffle在Reduce端的两个个操作:拉取partition...原创 2018-09-13 09:13:10 · 2642 阅读 · 0 评论 -
HDFS的高可用原理分析
非常好HA的总结,具体如下原创 2018-09-19 15:42:33 · 401 阅读 · 0 评论 -
Hbase的Region的三次定位分析
原创 2018-09-19 15:50:35 · 751 阅读 · 0 评论 -
CAP理论在Nosql的应用分析
CAP定义:C(一致性):所有的节点上的数据时刻保持同步 A(可用性):每个请求都能接受到一个响应,无论响应成功或失败 P(分区容错):系统应该能持续提供服务,即使系统内部有消息丢失(分区)高可用、数据一致是很多系统设计的目标,但是分区又是不可避免的事情:CA without P:如果不要求P(不允许分区),则C(强一致性)和A(可用性)是可以保证的。但其实分区不是你想不想的问题,而...原创 2018-09-19 16:01:58 · 430 阅读 · 0 评论 -
Hadoop项目开发环境的硬件选型
原创 2018-09-19 16:08:41 · 1150 阅读 · 1 评论 -
Hbase插入数据的模块化操作案例
private void insertHbaseDBForSports(String dataType, String appType, String collectDate, List<Map<String, String>> dataValue, String phone, String deviceID) throws Exception { HQuer...原创 2018-09-20 14:15:10 · 275 阅读 · 0 评论 -
数据从HDFS文件迁移到Hive
创建用户表usertbl在hive中,代码实现如下:create table usertbl (id int , deviceID String, patientID String, deviceType String, appType String, deviceUseFlag String, company String, pname String, email String, teamNa...原创 2018-09-20 14:46:58 · 3139 阅读 · 0 评论 -
Hive实现多表级联统计
有如下访客访问次数统计表 t_access_times 访客 月份 访问次数 A 2015-01 5 A 2015-01 15 B 2015-01 5 ...原创 2018-12-28 16:20:57 · 753 阅读 · 0 评论 -
Flume的安装及详细配置指南
Flume的安装Flume的安装比较简单,上传安装包到只需要解压即可,当然,前提是已有hadoop环境,上传安装包到数据源所在节点上。 解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz 进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME。 根据数据采集的需求配置采集方案,描述在配置文件中(文件名可任意自定义)...原创 2018-07-26 09:23:29 · 467 阅读 · 0 评论 -
Hive和传统数据库区别总结
1、数据存储位置。Hive是建立在Hadoop之上的,所有的Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或本地文件系统中。2、数据格式。Hive中没有定义专门的数据格式,由用户指定,需要指定三个属性:列分隔符,行分隔符,以及读取文件数据的方法。数据库中,存储引擎定义了自己的数据格式。所有数据都会按照一定的组织存储。3、数据更新。Hive的内容是读多写少的,因...原创 2018-07-26 14:26:38 · 6994 阅读 · 1 评论 -
Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.mapred.ReduceTask.setLocalMapFiles 报错解决
我的环境是:Spring +Maven +Hadoop2.7.3 问题描述:在执行Habse 的Mapreduce过程中出现如下错误:Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.mapred.ReduceTask.setLocalMapFiles 问题分析:hbase的版本太低造成的升级为如下图版本: 解...原创 2018-08-25 16:17:59 · 1117 阅读 · 0 评论 -
Hadoop本地化的方法总结
环境: Eclipse Mar 3+Hadoop2.7.3Base lineHost file modify C:\Windows\System32\drivers\etc hosts,配置环境变量HADOOP_HOME:C:\hadoop Linux tar zip解压hadoop2.7.3 到 C:\hadoop3 copy hadoop_dll_winutil_2.7.1 下的...原创 2018-08-25 16:26:19 · 668 阅读 · 0 评论 -
Elasticsearch全文本搜索和原理分析
Elasticsearch一个高可扩展的开源的全文本搜索和分析工具。允许你以近实时的方式快速存储、搜索、分析大容量的数据。Elasticsearch是一个基于ApacheLucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。ElasticSearch 有四种方式来构建数据库最简单的方法是使用indexAPI,将一...原创 2018-08-23 14:42:26 · 798 阅读 · 0 评论 -
Hive的核心技术及案例总结
1. Hive是什么?Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将HQL转换为MapReduce程序。 2. Hive的设计目标?1、Hive的设计目标是使Hadoop上的数据操作与传统SQL相结合,让熟悉SQL编程开发人员能够轻松向Hadoop平台迁移2、Hive提供类似SQL的查询语言HQL,HQL...原创 2018-08-23 11:21:25 · 1389 阅读 · 0 评论 -
HBaseTemplate工具类的查询统一接口代码实战
import java.util.Iterator;import java.util.List;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoo...原创 2018-08-20 10:02:38 · 3250 阅读 · 0 评论 -
MapReduce的shuffle工作原理讲解
mapReduce首先是由inputFormat把数据从hdfs里面取出来对数据进行切片操作,只是逻辑上的切分,然后由record reader(记录阅读器)根据逻辑分片分好的位置以及长度信息去底层具体的hdfs各个块把相关的分片给读出来。 读出来以keyValue的形式输出给map任务。具体的map任务是由程序员自己去写业务逻辑。map任务结束后 以键值对的形式输出给reduce,map任务结...原创 2018-08-10 09:25:13 · 947 阅读 · 0 评论 -
HDFS的高可用工作原理(HA)的最权威分析
HA首先是启动两个nameNode,一个是active状态,一个是standby,当active挂掉后,standby通过zookeepe会自动迅速的替代上。这样集群就会非常的可靠。Zookeeper如何知道nameNode是active或standby状态呢?他是通过两个进程来知道的,叫做zookeeper failoveController(故障排除 控制器) active 和zookeep...原创 2018-08-10 09:24:54 · 2223 阅读 · 1 评论 -
资深架构师分享:Hadoop2.7.4完全分布式集群构建实战总结
配置Linux环境配置好各虚拟机的网络(采用NAT联网模式) 通过Linux图形界面进行修改(桌面版本Centos):进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections-> 选中当前网络System eth0 -> 点击edit按钮 -> 选择IPv4 -> method选择为manual ->点击ad...原创 2018-07-25 09:17:00 · 3503 阅读 · 0 评论 -
Hadoop2.7.3伪分布式环境一站式构建(加载镜像,无需安装)
安装VMware Workstation之后(网上下载),启动虚拟器配置虚拟机的路径,E:/linux7(这是我自己做的centos虚拟器的镜像,读者可以关注我,联系我)配置桥接模式,实现同一网段的程序可以连接我的linux虚拟器此时桥接模式生效后,需要配置桥接模式VMware Network Adapter VMnet8的IP地址为192.168.106.1,注意此时不要...原创 2018-08-05 19:37:26 · 1018 阅读 · 0 评论 -
Zookeeper在Hbase中的工作原理和三次寻址详解
Zookeeper原理介绍Zookeeper是一个开放源码的分布式集群协调器,主要用于解决分布式应用中的统一命名服务、状态同步服务、集群管理、配置项管理等问题。HBase安装包中含有内置ZooKeeper,也可以使用独立安装的ZooKeeper。主要有如下作用:解决HMaster的单点故障问题: Hbase中可以启动多达10个HMaster,通过ZooKeeper的Master Electi...原创 2018-07-30 10:07:49 · 2411 阅读 · 2 评论 -
HBase工作原理最全详解(图文)
HBase集群是由HMaster和HRegionServer等服务组成的。HMaster是HBase集群的管理者,负责管理多个HRegionServer,以及对其上的表和区域Region的管理、对用户数据请求的响应。集群工作主要是客户端和集群交互进行数据文件的读写,由客户端直接和HRegionServer通信,当出现故障后HMaster负责集群的故障切换、HRegion拆分、管理操作接口,因此HM...原创 2018-07-30 10:05:37 · 7045 阅读 · 1 评论 -
Hadoop安装过程中问题总结
我的经验是先记住三点一是学会看日志:例如:cat /usr/local/hbase-1.1.2/logs/hbase-root-master-hadoop1.log二是,保证各节点时间同步方法:date -s "2017-04-13 10:42:00"三是,按照启动顺序排查如下:...原创 2018-07-30 09:53:17 · 484 阅读 · 0 评论 -
Hbase最权威的核心技术总结
HBase属于存储层,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,可在廉价PC Server上搭建起大规模结构化存储集群。Hbase依托于很多框架和工具。其中,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。Pig和Hive还为HBas...原创 2018-07-27 19:34:05 · 1070 阅读 · 2 评论 -
Hive的ETL实战
需求:对web点击流日志基础数据表进行etl(按照仓库模型设计) 按各时间维度统计来源域名top10已有数据表 “t_orgin_weblog” : +------------------+------------+----------+--+ | col_name | data_type | comment | +--------------...原创 2018-12-28 16:23:45 · 3415 阅读 · 0 评论