大数据hadoop-填坑
文章平均质量分 87
hadoop hdfs map reduce yarn
zookeeper
hive
hbase
storm
kafka jms
flume
sqoop
alwarse
这个作者很懒,什么都没留下…
展开
-
【填坑之旅-hadoop-12】2.10.1 实战 用户行为轨迹增强 2步 带爬清单 topurl 信息增强 llyy.enhance flume 爬虫Nutch 模板匹配 hive mr
项目背景投产成效项目处理的数据数据处理流程1 数据采集 ->清洗、分类、合并->上传HDFS集群2 数据处理 内容识别->用户行为轨迹增强3 数据挖掘、统计分析4 业务应用,BI报表数据处理结果中间结果1 原始日志2 分类合并日志3. 行为轨迹增强日志4. 带爬清单挖掘、分析结果入库(关系型数据表)系统整体架构主要技术选型数据采集:sqoop 数据采集 flume日志采集云存储:hdfs分布式存储 hbase数量处理:mapredu原创 2021-11-06 15:30:05 · 213 阅读 · 0 评论 -
【填坑之旅-hadoop-11】2.10.1 flume 1.9.0 (agent channel source sink) sqoop 1.4.7 (import,export)
flumenet-example.properties 配置文件bin/flume-ng agent --conf conf --conf-file conf/net-example.properties --name a1 -Dflume.root.logger=INFO,consoleflume 示例(source netcat telnet 44444)# example.conf: 一个单节点的 Flume 实例配置# 配置Agent a1各个组件的名称a1.sources =原创 2021-11-06 14:47:36 · 166 阅读 · 0 评论 -
【填坑之旅-hadoop-10】2.10.1 jdk1.8 kafka 2.12-2.6.2 storm 整合 producer consumer Topic CG java api
kafka 简介先不论用什么来实现,我们先评估业务。1、你用消息,你要明白,你这个消息,消费的时候需要不需要回复已已消费?2、你能不能重复消费消息?3、如果消息丢失了怎么办?4、另外,这些消息是怎么一个消费规律?一次性会发送多少?频率是怎样?5、服务器架构需要如何设计?是否需要集群?是否需要分布式?kafka笔记1/kafka是一个分布式的消息缓存系统2/kafka集群中的服务器都叫做broker3/kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(原创 2021-11-06 10:35:08 · 1131 阅读 · 0 评论 -
【填坑之旅-hadoop-09】2.10.1 jdk1.8 Storm1.2.3 安装 流式计算 nimbus ui supervisor topo spouts bolts tuple tas
storm 相关概念介绍Apache Storm 与任何排队系统和任何数据库系统集成。Apache Storm 的spout抽象使得集成新的排队系统变得容易。示例队列集成包括:KestrelRabbitMQ / AMQPKafkaJMSAmazon Kinesis同样,将 Apache Storm 与数据库系统集成也很容易。只需像往常一样打开与数据库的连接并进行读/写。Apache Storm 将在必要时处理并行化、分区和故障重试。基本概念框架结构spout tuple bo原创 2021-11-04 15:54:57 · 1060 阅读 · 0 评论 -
【填坑之旅-hadoop-08】2.10.1 jdk1.8 Hbase 1.7.1 bigtable Hmaster HregionServer versions Family Qualifier
pig数据仓库 数据集市edw odb adbhadoop ecosystem 分布式搜索引擎「Elasticsearch」、分布式文件系统「HDFS」、分布式消息队列「Kafka」、缓存数据库「Redis」等等…HBSEhbase hadoop 版本chown hadoop:hadoop -R ./hive --service metastore./schematool -dbType mysql -initSchema./hive --service原创 2021-11-04 11:48:43 · 1014 阅读 · 0 评论 -
【填坑之旅-hadoop-06】hadoop2.10.1(基于hdfs mr)HIVE 1.2.2/jkd1.8/mysql 8.0.23 安装 元数据库(mysql) hql语言 UDF PIG
hive简介hive 安装Hive只在一个节点上安装即可1.上传tar包2.解压tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.配置mysql metastore(切换到root用户)配置HIVE_HOME环境变量rpm -qa | grep mysqlrpm -e mysql-libs-5.1.66-2.el6_3.i686 --nodepsrpm -ivh MySQL-server-5.1.73-1.glibc23.i386.rpm rpm -原创 2021-11-01 15:27:56 · 528 阅读 · 0 评论 -
【填坑之旅-hadoop-06】hadoop2.10.1 (基于2.4.1)zookeeper集群 HDFS HA 高可用 集群规划 zkfc(federation ) qjournalNode
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,我将编译好的64位的也上传到群共享里了,如果有兴趣的可以自己编译一下)前期准备就不详细说了,课堂上都介绍了1.修改Lin原创 2021-11-01 09:52:50 · 664 阅读 · 0 评论 -
【填坑之旅-hadoop-05】hadoop2.10.1 mr自定义排序 分组FlowSumArea/SortMR Partitioner/ WritableComparable 倒排索引
job提交流程–补充版map task 把处理结果回报MRAPPmasterreduce task 把map处理结果 合并,处理运算,再输出1.实现分区的步骤:1.1先分析一下具体的业务逻辑,确定大概有多少个分区1.2首先书写一个类,它要继承org.apache.hadoop.mapreduce.Partitioner这个类1.3重写public int getPartition这个方法,根据具体逻辑,读数据库或者配置返回相同的数字1.4在main方法中设置Partioner的类,job.原创 2021-11-01 08:34:05 · 119 阅读 · 0 评论 -
【填坑之旅-hadoop】centos7安装hadoop2.10.1 hive 1.2.2 / hdfs 文件上传写入流程 / MapReduce Yarn 流程/zookeeper/hive
第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示第二天 hdfs的原理和使用操作、编程第三天 mapreduce的原理和编程第四天 常见mr算法实现和shuffle的机制第五天 hadoop2.x中HA机制的原理和全分布式集群安装部署及维护第六天 hbase hive第七天 storm+kafka第八天 实战项目hadoop clouderacloudera edh() enterprise data hub数据众包原创 2021-10-22 11:05:24 · 983 阅读 · 0 评论 -
【填坑之旅-hadoop-04】hadoop2.10.1 RPC框架 远程过程调用 ClientProtocal 接口协议 底层机制 ipc.RPC/Builder/Server/getProxy
RPC框架 远程过程调用1.服务端启动服务,2.客户端获取服务端接口协议的代理对象3.客户端通过代理对象的接口协议,调用服务端提供的功能(直接通过socket协议通信)hdfs接口协议对象是 org.apache.hadoop.hdfs.protocol.ClientProtocol;rpc hadoop 动态代理 proxy socketLoginServiceInterface 接口协议package cn.itcast.hadoop.rpc;public interface原创 2021-10-30 16:26:46 · 216 阅读 · 0 评论 -
【填坑之旅-hadoop-03】hadoop2.10.1 wordcount(Mapper,Reducer,Job,ToolRunner,Tool,InputFormat,OutputFormat)
注意eclipse 最后在有hadoop的centos的机器上直接跑,不然问题会比较多或者打成jar包,通过 hadoop jar XXX.jar cn.itcast.hadoop.mr.wordcount.WCRunner 在yarn上跑job运行流程input->split->map->buffer->partition->merge->sort->merge->reduce->outputmapreduce 任务调用机制job.wa原创 2021-10-30 16:16:57 · 106 阅读 · 0 评论 -
【填坑之旅-hadoop-02】hadoop2.10.1 HdfsUtil java api (Configuration FileSystem FSDataInputStream FileOutp)
HdfsUtil.class主要用到对象Configuration conf = new Configuration();conf.set("fs.defaultFS", "hdfs://master:9000/");FileSystem fs = FileSystem.get(new URI("hdfs://master:9000/"),conf,"hadoop");FSDataInputStream is = fs.open(new Path("/aaa/qingshu2.txt"));原创 2021-10-30 15:56:30 · 119 阅读 · 0 评论 -
【填坑之旅-hadoop-01】hadoop2.10.1(基于2.4.1更新配置)伪分布式搭建 centos7 jdk1.8
1.准备Linux环境1.0虚拟机网络设置(NAT模式,定义子网)点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMnet1 -> 属性 -> 双击IPv4 -原创 2021-10-30 15:47:56 · 428 阅读 · 0 评论