萌萌哒的理工男-CSDN博客

flume分层：第一层，每台服务器一个flume采集日志，为多个第一层代理配置一个avro接收器，它们均指向单个代理的avro源。第二层，代理上的此源将接收到的事件合并到一个通道中，再由此flume上传到hdfs、hive、hbase、jms等，进行日志分析flume负载均衡：source里的event流经channel，进入sink组，在sink组内部根据负载算法选择sink，后续可以选择不...

2019-10-20 17:21:30 554

原创 flume数据采集的压力测试

数据采集数据量分析日活300W，平均每人100次点击事件，也就是300G数据，再平均到12小时 25G/h=7M/s而流量峰值X10。差不多在70M/s为了保证我们的Flume稳定服务，即使有Web服务器的负载前提,也要保证每台机器能抗住峰值的数据量。为了将日志用于实时分析，我们不能让日志文件落地，所以得采用HttpSource这样的能直接获取接口数据的Source。为了防止异常情...

2019-10-20 17:13:55 2122

原创 vs code 根据屏幕宽度自动换行

如题↑好烦呀，还要拖动底部的滚动条，一点都不程序员左上角文件首选项设置搜索 editor.wordWrapbingo√多爽呦

2019-09-26 11:21:39 1625

原创 mysql8.x下hue的安装及解决 my_config.h 不存在的问题

fatal error: my_config.h: No such file or directorymy_config.h不存在mysql8.x下hue的安装及解决 my_config.h 不存在的问题

2019-09-26 10:38:25 2474 4

原创 flume 基础案例

exec -->memory -->logger监控本地文件，输出到logger为了方便起见，将hive的日志文件作为输入源flume agent启动→启动hive→观察agent变化#定义source|channel|sink组件a1.sources = r1a1.sinks = k1a1.channels = c1#配置r1的属性a1.sources.r1.ty...

2019-09-21 22:23:45 349

原创 flume hdfs sink 配置

flume里关于hdfs的sink配置：属性描述typehdfspathhdfs的路径，需要包含文件系统标识，比如：hdfs://flume/events/dt=%y-%m-%dfilePrefix默认值：FlumeData，写入hdfs的文件名前缀fileSuffix写入 hdfs 的文件名后缀，比如：.lzo .log等inUsePrefi...

2019-09-21 22:23:00 567

原创 flume 安装组件介绍

FlumeFlume是一种分布式，可靠且有效的服务，用于有效地收集，汇总和移动大量日志数据安装官网：http://flume.apache.org/download.html1.解压到目录2.修改配置cd /opt/app/flume/confmv flume-env.sh.template flume-env.sh配置JAVA_HOME组件source ：数据源组件，专门...

2019-09-21 22:21:18 156

原创 datax 案例

dataxdatax也太**好用了！！！！！！！！！！github官网：https://github.com/alibaba/DataXQuick Start：https://github.com/alibaba/DataX/blob/master/userGuid.md开发宝典：https://github.com/alibaba/DataX/blob/master/dataxPlugi...

2019-09-21 16:49:22 1122 1

原创 sqoop 操作练习

sqoop 操作sqoop helpAvailable commands: codegen Generate code to interact with database records create-hive-table Import a table definition into Hive eval Evaluate a SQ...

2019-09-21 16:27:40 363 1

原创 hive hql 普通查询练习

普通查询1、使用hive的hql查询用户所在部门dpt表dpt_id dpt_name1 产品2 技术user_dpt表user_id dpt_id1 12 13 24 25 3set hive.exec.mode.local.auto =false;selectuser_id,u.dpt_id,nvl(d.dpt_name,"其他部门")fromuse...

2019-09-21 14:18:27 519

原创 hive hql 交差并集练习

交差并集练习1、使用hive求出两个数据集的差集数据：t1表： id name1 zs 2 lst2表： id name1 zs 3 ww结果如下： id name 2 ls3 wwSELECT t1.id ,t1.name FROM t1 LEFT JOIN t2 ON t1.id = t2.id WHERE t2.id is null unio...

2019-09-21 11:02:22 2309

原创 hive hql 时间函数练习

时间函数常见函数from_unixtime(bigint unixtime,[string format]): 时间戳转日期函数，unix_timestamp([string date]): 转换成时间戳，然后转换格式为“yyyy-MM-dd HH:mm:ss“的日期到UNIX时间戳。如果转化失败，则返回0，返回bigint类型to_date(string timestamp): 将时间...

2019-09-21 10:47:46 2638

原创 hive hql 行列转换练习

行列互换行转列使用 case when 查询出多列即可，即可增加列。列转行1、lateral view explode()使用炸裂函数可以将1列转成多行，被转换列适用于array、map等类型。 lateral view posexplode(数组)，如有排序需求，则需要索引。将数组炸开成两行(索引 , 值),需要 as 两个别名。2、case when 结合concat_ws与col...

2019-09-21 10:35:02 1146

原创 hive hql 窗口函数练习

窗口函数物理窗口真实往上下移动多少行rows betweenCURRENT ROW | UNBOUNDED PRECEDING | [num] PRECEDING AND UNBOUNDED FOLLOWING | [num] FOLLOWING| CURRENT ROW如: over(partition by col order by rows between 1 preceding ...

2019-09-21 09:48:21 1012

原创 xshell backspace 退格键打印出 ^H 的解决办法

我想要yes然后我输入了yes然后发现y for yesany other key for no我。。。backspace backspace然后就变成了yes^H^H。。。perfect

2019-09-20 14:38:14 2450

原创 sqoop 1.4.7 安装

下载下载链接：http://mirror.bit.edu.cn/apache/sqoop/1.4.7/解压tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /opt/app/配置环境变量vi /etc/profileexport SQOOP_HOME=/opt/app/sqoop-1.4.7.bin__hadoop...

2019-09-16 19:14:47 254

原创记录 VS code 之安装的插件

Visual Studio Code最近被安利的这款巨好看实用牛X吧啦吧啦的编辑器，记录一下安装了哪些插件，以免日后他人问起，不知所以然。Visual Studion Code （VS code）官网：https://code.visualstudio.com/Visual Studion Code （VS code）gethub 地址：https://github.com/Micro...

2019-09-13 16:54:57 893

原创 python myqr 模块制作静态动态二维码

myqr安装命令pip install myqr参数选项作用 -v 定义二维码的大小，范围为 1 ~ 40，默认大小取决于输入的内容 -l 定义二维码纠错率，也就是说二维码被遮挡一部分仍然被识别出来，有四个等级，分别是L(7%)、M(15%)、Q(25%)、H(30%)，默认情况是最高等级的H -n 自定义二维码的名称 -d 自定义...

2019-09-12 09:17:29 3249

原创记一次CentOS7下python2爬取图片和岗位信息的过程

自从得知了centos里自带python，脑子里整天飞扑棱蛾子，我能用python干点啥突然想到最近身边的小伙伴们，都在追逐于各色美女我翻了翻我的电脑，找到了它一个尘封已久的python程序我默默的打出了 python --version啊，久违的python2，真好上面在扯皮，我们开始，为了能体现操作过程，我在未安装任何python库的电脑上开始导入这个文件，...

2019-09-10 17:27:23 404

原创 HDFS 高可用（HA）

HDFS 集群高可用（HA）所谓的HA(High available),简称高可用(7*24不间断服务)备份方式主从方式(冷备)准备两个相同的应用程序,一个对外提供服务,成为主程序,另外一个平时不运行(主要负责根对外提供服务的机器进行数据同步等操作),称之为从程序或备份程序,即从程序是主程序的一个备份,等主程序出现问题的时候,再顶上去。双主互备(热备)准备两个相同的应用程序...

2019-09-10 12:55:06 361

原创 HDFS 写入过程分析

HDFS 写入流程过程Client 通过调用 FileSystem 的 create()方法来请求创建文件 FileSystem 通过对 NameNode 发出远程请求，在 NameNode 里面创建一个新的文件，但此时并不关联任何的块。 NameNode 进行很多检查来保证不存在要创建的文件已经存在于文件系统中，同时检查是否有相应的权限来创建文件。如果这些检查都完成了，那么Name...

2019-09-10 11:52:33 310

原创 HDFS 读取过程分析

HDFS 读取过程过程客户端或者用户通过调用 FileSystem 对象的 open()方法打开需要读取的文件，这对 HDFS 来说是常见一个分布式文件系统的一个读取实例。 FileSystem 通过远程协议调用 NameNode 确定文件的前几个 Block 的位置。对于每一个 Block， NameNode 返回一含有那个 Block 拷贝的“元数据”，即文件基本信息；接下来，D...

2019-09-10 11:47:52 345

原创 Hadoop safemode 安全模式

概念安全模式是hadoop的一种保护机制哪些情况会进入safemode启动或者重新启动hdfs时，会有一段时间自动进入安全模式运维人员在进行调试时，进行HDFS维护升级时可用副本/总副本数 > 99.9999% ===> 不会进安全模式；否则进安全模式安全模式下，集群属于只读状态。但是严格来说，只是保证HDFS元数据信息的访问，而不保证文件的访问，因为文件的组...

2019-09-10 11:06:48 1738

原创 HDFS Client & SNN

Client & SNNClient SecondaryNameNode 文件切分并非NameNode的备份与NameNode交互，获取文件位置信息辅助NameNode，分担其工作量与DataNode交互，读取或者写入数据定期合并Fsimage和Edits，推送给NameNode 管理和访问HDFS 在紧急情...

2019-09-10 09:55:53 282

原创 HDFS NN DN SNN Fsimage Edits

NameNode（主）就是是Master,它相当于是一个主管(管理者)管理HDFSD的名称空间配置副本策略管理数据块(Block)映射信息(存储一些块信息) 处理客户端的读写操作 NameNode就是维护着HDFS的目录树结构,NameNode(基于内内存),不会和磁盘发生交互操作,只在内存中完成每次Namenode启动都会加载metadata信息到内存中以便提供访问操作 N...

2019-09-10 09:27:19 310

原创 Hive 简介流程架构

HiveApache Hive数据仓库软件可以使用SQL进编写和管理分布式存在系统中大型数据集,提供一个命令行工具和JDBC驱动程序来连hive 官网:hive.apache.orgHive:是由Facebook开源用于解决海量结构化日志的数据分析统计工具ps:结构化通俗讲就是用行有列 --> 表 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一...

2019-09-08 20:26:15 409

原创 MapReduce 的优化

MR的优化MapReduce优化方法主要从六个方面考虑：数据输入 Map阶段 Reduce阶段 IO传输数据倾斜问题常用的调优参数。数据输入合并小文件:在执行MR任务前将小文件进行合并,大量的小文件会产生大量的Map任务,增大map任务装载次数,而任务的装载比较耗时,从而导致mr运行较慢. 采用CombineTextInputFormat来作为输入,解决输入端...

2019-09-08 20:03:56 344

原创 YARN 异常处理

对于 YARN 的异常处理来说，需要对运行过程中所有的过程对象进行处理，这其中包括当前任务发生的异常,对任务调度器，节点管理器和资源管理器的处理等。首先对于任务失败，与 MapReduce 任务失败相类似，直接报出运行异常并且从所运行的 JVM 中退出，其中 Task Attempt 失败这个消息会通知 Application Master，由 Application Master 标记其为失...

2019-09-08 18:02:05 806

原创 MapReduce 分布式计算框架简介特点工作流程

MapReduce 计算框架一种分布式计算框架，解决海量数据的计算问题MapReduce将整个并行计算过程抽象到两个函数Map(映射)：对一些独立元素组成的列表的每一个元素进行指定的操作，可以高度并行。 Reduce(化简归约)：对一个列表的元素进行合并。一个简单的MapReduce程序只需要指定map()、reduce()、input和output，剩下的事由框架完成。M...

2019-09-08 17:35:35 1581

原创 YARN—分布式资源管理框架架构组件工作流程

Yet Another Resource NegotiatorApache Hadoop YARN 是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。架构ResourceManager（RM）全局的资源管理器，整个集群只有一个，负责集群资源的统一管理和调度分配...

2019-09-08 16:28:05 632

原创 HDFS 简介设计目标特点架构

Hadoop Distributed File System易于扩展的分布式文件系统运行在大量普通廉价机器上，提供容错机制为大量用户提供性能不错的文件存取服务HDFS设计目标自动快速检测应对硬件错误流式访问数据移动计算比移动数据本身更划算简单一致性模型异构平台可移植优点高可靠性:Hadoop存储和处理数据的能力强高扩展性: 有效的分布数据计算,在不同节...

2019-09-08 16:09:34 593

原创 Hadoop 历史简介特点架构

Hadoophadoop官网戳这里发展历史Apache Hadoop 为可靠的，可扩展的分布式计算开发开源软件。 Apache Hadoop软件库是一个框架，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集（海量的数据）。包括这些模块：Hadoop Common：支持其他Hadoop模块的常用工具。 Hadoop分布式文件系统（HDFS™）：一种分布式文件系统，可提供...

2019-09-08 15:44:46 411

原创 YARN 三大调度器之 Fair Schedule 公平调度器

Fair Schedule先上官网链接：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/FairScheduler.html本帖基本来自官方文档~细改了翻译，字有点多，多为文字描述= =慢慢看另一篇：YARN 三大调度器之 Capacity Schedule 容器调度器概述公平调度是一种为...

2019-09-06 11:35:24 3757

原创 YARN 三大调度器之 Capacity Schedule 容器调度器

Capacity Schedule先上官网链接：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html本帖基本来自官方文档~细改了翻译，字有点多，多为文字描述= =慢慢看另一篇：YARN 三大调度器之 Fair Schedule 公平调度器概述Hado...

2019-09-05 21:36:05 1482

原创 Hadoop 三大调度策略三种调度器

hadoop的调度策略三种调度器简介yarn常见的有三种调度器他们分别是容器调度(Capacity Scheduler)、公平调度器(Fair Scheduler)、先进先出调度器(FIFOScheduler)。三个调度器的示例图三个调度器的区别FIFO SchedulerFIFO Scheduler把应用按提交的顺序排成一个队列，这是一个先进先出队列，在进行资源分配的时候，先给队...

2019-09-05 20:27:55 3212

原创 MapReduce 基础案例之倒排索引

倒排索引倒排索引是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎倒排索引，不是按照每个文档中单词的字数来统计，而是反过来根据单词去不同文件中进行统计，故而称为倒排索引。而在统计的过程中，单词在不同文件中还会带上一个权值，这个权值用来指出每个文档与搜索内容的相关度，经常是在文件中出现的次数举例index.htmlhadoop hadoop hadoop ...

2019-09-05 11:20:09 3040

转载 MySQL 数据库铁律

好的数据库规范有助于减少软件实现的复杂度，降低沟通成本，本铁律主要涵盖了建库建表、建索引、写 SQL、ORM 映射等方面的处理约定。1.建库铁律- 铁律 Level 备注字符集使用 utf-8。如果存储的是表情则选用 utf8mb4 进行存储。强制排序规则使用 utf8_general_ci 强制 2.建表...

2019-09-05 10:10:54 127

原创 MapReduce 基础案例之平均值计算

平均值计算平均值的计算是对相同属性的一堆值，进行取平均。常见的如平均成绩、平均温度。思想平均值的计算其实是在MapReduce入门案例词频统计wordcount的基础上，再进化一步。词频统计wordcount。是在Map阶段将每个单词作为key。value固定值为1。在Reduce阶段，将多个1相加，得到词频。平均值计算，是在Map阶段将属性作为key，同一个属性的值作为val...

2019-09-05 09:30:07 2271 3

原创 MapReduce 基础案例之二次排序自定义数据类型实现

二次排序以MapReduce入门案例词频统计wordcount为基础，将单词及其出现频率，按照频率降序，频率相同，单词字典序升序的顺序进行二次排序思想方法1将要排序的元素，放入数据结构中，如TreeSet，建立比较器，按照要求建立比较规则，将每条数据放入TreeSet，根据比较器规则自动排序，再输出即可缺点数据结构的存储有限，根据计算能够算出大约数据结构需要存储的大小。当数...

2019-09-04 22:01:40 407

空空如也

空空如也