自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

努力吧闫小胖的博客

小咸鱼在努力翻身

  • 博客(47)
  • 收藏
  • 关注

原创 1024快乐

各位程序猿(媛)快乐= =

2019-10-24 11:51:10 199

原创 flume数据采集的负载均衡问题

flume分层:第一层,每台服务器一个flume采集日志,为多个第一层代理配置一个avro接收器,它们均指向单个代理的avro源。第二层,代理上的此源将接收到的事件合并到一个通道中,再由此flume上传到hdfs、hive、hbase、jms等,进行日志分析flume负载均衡:source里的event流经channel,进入sink组,在sink组内部根据负载算法选择sink,后续可以选择不...

2019-10-20 17:21:30 554

原创 flume数据采集的压力测试

数据采集数据量分析日活300W,平均每人100次点击事件,也就是300G数据,再平均到12小时 25G/h=7M/s而流量峰值X10。差不多在70M/s为了保证我们的Flume稳定服务,即使有Web服务器的负载前提,也要保证每台机器能抗住峰值的数据量。为了将日志用于实时分析,我们不能让日志文件落地,所以得采用HttpSource这样的能直接获取接口数据的Source。为了防止异常情...

2019-10-20 17:13:55 2122

原创 vs code 根据屏幕宽度 自动换行

如题↑好烦呀,还要拖动底部的滚动条,一点都不程序员左上角 文件 首选项 设置搜索 editor.wordWrapbingo√多爽呦

2019-09-26 11:21:39 1625

原创 mysql8.x下hue的安装 及 解决 my_config.h 不存在的问题

fatal error: my_config.h: No such file or directorymy_config.h不存在mysql8.x下hue的安装 及 解决 my_config.h 不存在的问题

2019-09-26 10:38:25 2474 4

原创 flume 基础案例

exec -->memory -->logger监控本地文件,输出到logger为了方便起见,将hive的日志文件作为输入源flume agent启动→启动hive→观察agent变化#定义source|channel|sink组件a1.sources = r1a1.sinks = k1a1.channels = c1#配置r1的属性a1.sources.r1.ty...

2019-09-21 22:23:45 349

原创 flume hdfs sink 配置

flume里关于hdfs的sink配置:属性描述typehdfspathhdfs的路径,需要包含文件系统标识,比如:hdfs://flume/events/dt=%y-%m-%dfilePrefix默认值:FlumeData,写入hdfs的文件名前缀fileSuffix写入 hdfs 的文件名后缀,比如:.lzo .log等inUsePrefi...

2019-09-21 22:23:00 567

原创 flume 安装 组件介绍

FlumeFlume是一种分布式,可靠且有效的服务,用于有效地收集,汇总和移动大量日志数据安装官网:http://flume.apache.org/download.html1.解压到目录2.修改配置cd /opt/app/flume/confmv flume-env.sh.template flume-env.sh配置JAVA_HOME组件source : 数据源组件,专门...

2019-09-21 22:21:18 156

原创 datax 案例

dataxdatax也太**好用了!!!!!!!!!!github官网:https://github.com/alibaba/DataXQuick Start:https://github.com/alibaba/DataX/blob/master/userGuid.md开发宝典:https://github.com/alibaba/DataX/blob/master/dataxPlugi...

2019-09-21 16:49:22 1122 1

原创 sqoop 操作 练习

sqoop 操作sqoop helpAvailable commands: codegen Generate code to interact with database records create-hive-table Import a table definition into Hive eval Evaluate a SQ...

2019-09-21 16:27:40 363 1

原创 hive hql 普通查询 练习

普通查询1、使用hive的hql查询用户所在部门dpt表dpt_id dpt_name1 产品2 技术user_dpt表user_id dpt_id1 12 13 24 25 3set hive.exec.mode.local.auto =false;selectuser_id,u.dpt_id,nvl(d.dpt_name,"其他部门")fromuse...

2019-09-21 14:18:27 519

原创 hive hql 交差并集 练习

交差并集练习1、使用hive求出两个数据集的差集数据:t1表: id name1 zs 2 lst2表: id name1 zs 3 ww结果如下: id name 2 ls3 wwSELECT t1.id ,t1.name FROM t1 LEFT JOIN t2 ON t1.id = t2.id WHERE t2.id is null unio...

2019-09-21 11:02:22 2309

原创 hive hql 时间函数 练习

时间函数常见函数from_unixtime(bigint unixtime,[string format]): 时间戳转日期函数,unix_timestamp([string date]): 转换成时间戳,然后转换格式为“yyyy-MM-dd HH:mm:ss“的日期到UNIX时间戳。如果转化失败,则返回0,返回bigint类型to_date(string timestamp): 将时间...

2019-09-21 10:47:46 2638

原创 hive hql 行列转换 练习

行列互换行转列使用 case when 查询出多列即可,即可增加列。列转行1、lateral view explode()使用炸裂函数可以将1列转成多行,被转换列适用于array、map等类型。 lateral view posexplode(数组),如有排序需求,则需要索引。将数组炸开成两行(索引 , 值),需要 as 两个别名。2、case when 结合concat_ws与col...

2019-09-21 10:35:02 1146

原创 hive hql 窗口函数 练习

窗口函数物理窗口真实往上下移动多少行rows betweenCURRENT ROW | UNBOUNDED PRECEDING | [num] PRECEDING AND UNBOUNDED FOLLOWING | [num] FOLLOWING| CURRENT ROW如: over(partition by col order by rows between 1 preceding ...

2019-09-21 09:48:21 1012

原创 xshell backspace 退格键 打印出 ^H 的解决办法

我想要yes然后我输入了yes然后发现y for yesany other key for no我。。。backspace backspace然后就变成了yes^H^H。。。perfect

2019-09-20 14:38:14 2450

原创 sqoop 1.4.7 安装

下载下载链接:http://mirror.bit.edu.cn/apache/sqoop/1.4.7/解压tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /opt/app/配置环境变量vi /etc/profileexport SQOOP_HOME=/opt/app/sqoop-1.4.7.bin__hadoop...

2019-09-16 19:14:47 254

原创 记录 VS code 之 安装的插件

Visual Studio Code最近被安利的这款巨好看实用牛X吧啦吧啦的编辑器,记录一下安装了哪些插件,以免日后他人问起,不知所以然。Visual Studion Code (VS code)官网:https://code.visualstudio.com/Visual Studion Code (VS code)gethub 地址:https://github.com/Micro...

2019-09-13 16:54:57 893

原创 python myqr 模块 制作 静态 动态 二维码

myqr安装命令pip install myqr参数选项 作用 -v 定义二维码的大小,范围为 1 ~ 40,默认大小取决于输入的内容 -l 定义二维码纠错率,也就是说二维码被遮挡一部分仍然被识别出来,有四个等级,分别是L(7%)、M(15%)、Q(25%)、H(30%),默认情况是最高等级的H -n 自定义二维码的名称 -d 自定义...

2019-09-12 09:17:29 3249

原创 记一次CentOS7下python2爬取图片和岗位信息的过程

自从得知了centos里自带python,脑子里整天飞扑棱蛾子,我能用python干点啥突然想到最近身边的小伙伴们,都在追逐于各色美女我翻了翻我的电脑,找到了它一个尘封已久的python程序我默默的打出了 python --version啊,久违的python2,真好上面在扯皮,我们开始,为了能体现操作过程,我在未安装任何python库的电脑上开始导入这个文件,...

2019-09-10 17:27:23 404

原创 HDFS 高可用(HA)

HDFS 集群高可用(HA)所谓的HA(High available),简称高可用(7*24不间断服务)备份方式主从方式(冷备)准备两个相同的应用程序,一个对外提供服务,成为主程序,另外一个平时不运行(主要负责根对外提供服务的机器进行数据同步等操作),称之为从程序或备份程序,即从程序是主程序的一个备份,等主程序出现问题的时候,再顶上去。双主互备(热备)准备两个相同的应用程序...

2019-09-10 12:55:06 361

原创 HDFS 写入过程分析

HDFS 写入流程过程Client 通过调用 FileSystem 的 create()方法来请求创建文件 FileSystem 通过对 NameNode 发出远程请求,在 NameNode 里面创建一个新的文件,但此时并不关联任何的块。 NameNode 进行很多检查来保证不存在要创建的文件已经存在于文件系统中,同时检查是否有相应的权限来创建文件。如果这些检查都完成了,那么Name...

2019-09-10 11:52:33 310

原创 HDFS 读取过程分析

HDFS 读取过程过程客户端或者用户通过调用 FileSystem 对象的 open()方法打开需要读取的文件,这对 HDFS 来说是常见一个分布式文件系统的一个读取实例。 FileSystem 通过远程协议调用 NameNode 确定文件的前几个 Block 的位置。对于每一个 Block, NameNode 返回一含有那个 Block 拷贝的“元数据”,即文件基本信息;接下来,D...

2019-09-10 11:47:52 345

原创 Hadoop safemode 安全模式

概念安全模式是hadoop的一种保护机制哪些情况会进入safemode启动或者重新启动hdfs时,会有一段时间自动进入安全模式 运维人员在进行调试时,进行HDFS维护升级时 可用副本/总副本数 > 99.9999% ===> 不会进安全模式;否则进安全模式安全模式下,集群属于只读状态。但是严格来说,只是保证HDFS元数据信息的访问,而不保证文件的访问,因为文件的组...

2019-09-10 11:06:48 1738

原创 HDFS Client & SNN

Client & SNNClient SecondaryNameNode 文件切分 并非NameNode的备份 与NameNode交互,获取文件位置信息 辅助NameNode,分担其工作量 与DataNode交互,读取或者写入数据 定期合并Fsimage和Edits,推送给NameNode 管理和访问HDFS 在紧急情...

2019-09-10 09:55:53 282

原创 HDFS NN DN SNN Fsimage Edits

NameNode(主)就是是Master,它相当于是一个主管(管理者)管理HDFSD的名称空间 配置副本策略 管理数据块(Block)映射信息(存储一些块信息) 处理客户端的读写操作 NameNode就是维护着HDFS的目录树结构,NameNode(基于内内存),不会和磁盘发生交互操作,只在内 存中完成每次Namenode启动都会加载metadata信息到内存中以便提供访问操作 N...

2019-09-10 09:27:19 310

原创 Hive 简介 流程 架构

HiveApache Hive数据仓库软件可以使用SQL进编写和管理分布式存在系统中大型数据集,提供一个命令行工 具和JDBC驱动程序来连hive 官网:hive.apache.orgHive:是由Facebook开源用于解决海量结构化日志的数据分析统计工具ps:结构化通俗讲就是用行有列 --> 表 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一...

2019-09-08 20:26:15 409

原创 MapReduce 的 优化

MR的优化MapReduce优化方法主要从六个方面考虑:数据输入 Map阶段 Reduce阶段 IO传输 数据倾斜问题 常用的调优参数。 数据输入合并小文件:在执行MR任务前将小文件进行合并,大量的小文件会产生大量的Map任务,增大map任务 装载次数,而任务的装载比较耗时,从而导致mr运行较慢. 采用CombineTextInputFormat来作为输入,解决输入端...

2019-09-08 20:03:56 344

原创 YARN 异常处理

对于 YARN 的异常处理来说,需要对运行过程中所有的过程对象进行处理,这其中包括当前任务发生的异常,对任务调度器,节点管理器和资源管理器的处理等。首先对于任务失败,与 MapReduce 任务失败相类似,直接报出运行异常并且从所运行的 JVM 中退出,其中 Task Attempt 失败这个消息会通知 Application Master,由 Application Master 标记其为失...

2019-09-08 18:02:05 806

原创 MapReduce 分布式计算框架 简介 特点 工作流程

MapReduce 计算框架一种分布式计算框架,解决海量数据的计算问题MapReduce将整个并行计算过程抽象到两个函数Map(映射):对一些独立元素组成的列表的每一个元素进行指定的操作,可以高度并行。 Reduce(化简 归约):对一个列表的元素进行合并。一个简单的MapReduce程序只需要指定map()、reduce()、input和output,剩下的事由框架完成。M...

2019-09-08 17:35:35 1581

原创 YARN—分布式资源管理框架 架构 组件 工作流程

Yet Another Resource NegotiatorApache Hadoop YARN 是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。架构ResourceManager(RM)全局的资源管理器,整个集群只有一个,负责集群资源的统一管理和调度分配...

2019-09-08 16:28:05 632

原创 HDFS 简介 设计目标 特点 架构

Hadoop Distributed File System易于扩展的分布式文件系统运行在大量普通廉价机器上,提供容错机制为大量用户提供性能不错的文件存取服务HDFS设计目标自动快速检测应对硬件错误 流式访问数据 移动计算比移动数据本身更划算 简单一致性模型 异构平台可移植优点高可靠性:Hadoop存储和处理数据的能力强高扩展性: 有效的分布数据计算,在不同节...

2019-09-08 16:09:34 593

原创 Hadoop 历史 简介 特点 架构

Hadoophadoop官网戳这里发展历史Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。 Apache Hadoop软件库是一个框 架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。 包括这些模块:Hadoop Common:支持其他Hadoop模块的常用工具。 Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供...

2019-09-08 15:44:46 411

原创 YARN 三大调度器 之 Fair Schedule 公平调度器

Fair Schedule先上官网链接:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/FairScheduler.html本帖基本来自官方文档~细改了翻译,字有点多,多为文字描述= =慢慢看另一篇:YARN 三大调度器 之 Capacity Schedule 容器调度器概述公平调度是一种为...

2019-09-06 11:35:24 3757

原创 YARN 三大调度器 之 Capacity Schedule 容器调度器

Capacity Schedule先上官网链接:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html本帖基本来自官方文档~细改了翻译,字有点多,多为文字描述= =慢慢看另一篇:YARN 三大调度器 之 Fair Schedule 公平调度器概述Hado...

2019-09-05 21:36:05 1482

原创 Hadoop 三大调度策略 三种调度器

hadoop的调度策略三种调度器简介yarn常见的有三种调度器他们分别是容器调度(Capacity Scheduler)、公平调度器(Fair Scheduler)、先进先出调度器(FIFOScheduler)。三个调度器的示例图三个调度器的区别FIFO SchedulerFIFO Scheduler把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队...

2019-09-05 20:27:55 3212

原创 MapReduce 基础案例 之 倒排索引

倒排索引倒排索引是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎倒排索引,不是按照每个文档中单词的字数来统计,而是反过来根据单词去不同文件中进行统计,故而称为倒排索引。而在统计的过程中,单词在不同文件中还会带上一个权值,这个权值用来指出每个文档与搜索内容的相关度,经常是在文件中出现的次数举例index.htmlhadoop hadoop hadoop ...

2019-09-05 11:20:09 3040

转载 MySQL 数据库铁律

好的数据库规范有助于减少软件实现的复杂度,降低沟通成本,本铁律主要涵盖了建库建表、建索引、写 SQL、ORM 映射等方面的处理约定。1.建库铁律- 铁律 Level 备注 字符集 使用 utf-8。如果存储的是表情则选用 utf8mb4 进行存储。 强制 排序规则 使用 utf8_general_ci 强制 2.建表...

2019-09-05 10:10:54 127

原创 MapReduce 基础案例 之 平均值 计算

平均值计算平均值的计算是对相同属性的一堆值,进行取平均。常见的如平均成绩、平均温度。思想平均值的计算其实是在MapReduce入门案例词频统计wordcount的基础上,再进化一步。词频统计wordcount。是在Map阶段将每个单词作为key。value固定值为1。在Reduce阶段,将多个1相加,得到词频。平均值计算,是在Map阶段将属性作为key,同一个属性的值作为val...

2019-09-05 09:30:07 2271 3

原创 MapReduce 基础案例 之 二次排序 自定义数据类型 实现

二次排序以MapReduce入门案例词频统计wordcount为基础,将单词及其出现频率,按照频率降序,频率相同,单词字典序升序的顺序进行二次排序思想方法1将要排序的元素,放入数据结构中,如TreeSet,建立比较器,按照要求建立比较规则,将每条数据放入TreeSet,根据比较器规则自动排序,再输出即可缺点数据结构的存储有限,根据计算能够算出大约数据结构需要存储的大小。当数...

2019-09-04 22:01:40 407

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除