自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 GBDT+LR算法

LR算法一、回归分析回归分析就是利用已知数据样本产生拟合方程,从而对未知数据进行预测。回归分析算法分类回归分析算法分为线性回归算法和非线性回归算法。2.1、线性回归一元线性回归和多元线性回归。2.2、非线性回归一元回归和多元回归。2.3、广义线性回归logistic回归三Logistic Regression算法逻辑回归与线性回归本质上是一样的,都是通过误差函数求解最优系数,在形式上只不过在线性回归上增加了一个逻辑函数。与线性回...

2020-06-11 14:58:40 858

转载 hive 处理 json数据

两种方式1、将json以字符串的方式整个入Hive表,然后通过使用UDF函数解析已经导入到hive中的数据,比如使用LATERAL VIEW json_tuple的方法,获取所需要的列名。2、在导入之前将json拆成各个字段,导入Hive表的数据是已经解析过得。这将需要使用第三方的SerDe。测试数据测试数据为新浪微博的评论数据,格式如下:{ "appCode": "weibo...

2019-06-13 18:34:57 241

原创 Cloudera Manager离线部署CDH文档 详解

Cloudera Manager离线部署CDH文档目录:Cloudera Manager离线部署CDH文档 1目录: 1一、说明 2二、系统环境搭建 31、网络配置(所有节点) 32、SSH免密码登录 33、关闭防火墙 34、关闭SELINUX 45、安装JDK 46、设置NTP 57、安装配置MySql 68、下载依赖包 7三、Clo...

2019-06-03 11:57:06 1628

转载 kafka基本原理介绍,以及重新选举,replica复制机制,isr等

最近做的项目,通过数据库的log日志将数据库某些千万量级的表(这些表需要联表查询)数据同步到elasticsearch中,以减轻数据库的查询压力,其中以kafka作为消息中间件,以下是做该项目过程中对kafka的一些整理。一、中间件中间件,用于业务对于数据的时效性要求并不是特别高,有削峰填谷、解耦之功效。特别是中间件可以实现发送端和消费端的解耦,让消息的发送端异步发送消息,并迅速返回,可以极...

2019-05-07 10:20:48 436

转载 Kafka丢失数据问题优化总结

数据丢失是一件非常严重的事情事,针对数据丢失的问题我们需要有明确的思路来确定问题所在,针对这段时间的总结,我个人面对kafka 数据丢失问题的解决思路如下: 是否真正的存在数据丢失问题,比如有很多时候可能是其他同事操作了测试环境,所以首先确保数据没有第三方干扰。 理清你的业务流程,数据流向,数据到底是在什么地方丢失的数据,在kafka 之前的环节或者kafka之后的流程丢失?...

2019-04-17 10:32:53 272

原创 Spark RDD算子整理 -- 转换算子 行动算子

转换算子操作:filter过滤符合条件的记录数,true保留,false过滤掉。map将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。特点:输入一条,输出一条数据。flatMap先map后flat。与map类似,每个输入项可以映射为0到多个输出项。sample随机抽样算子,根据传进去的小数按比例进行有放回或者无放回的抽样。reduceByKey...

2019-04-17 10:29:14 1440 3

转载 那些惊艳的算法们(一)—— 布隆过滤器

那些惊艳的算法们(一)——布隆过滤器欢迎转载 https://blog.csdn.net/xinzhongtianxia/article/details/81294922问题假设你现在要处理这样一个问题,你有一个网站并且拥有很多访客,每当有用户访问时,你想知道这个ip是不是第一次访问你的网站。这是一个很常见的场景,为了完成这个功能,你很容易就会想到下面这个解决方案:把访客的ip存进一...

2019-04-09 20:51:43 316

原创 Hive性能优化(全面)

Hive性能优化(全面)1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。Jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。Sum,count,max,min等UDAF,不怕数据倾斜问题,hado...

2019-04-04 22:41:37 252 4

转载 Elasticsearch中文社区201901错题本

1、kibana根据历史数据预测未来数据Elastic 的机器学习功能刚好就能做https://www.elastic.co/products/stack/machine-learning2、es查询问题。另外你要注意一下 Lucene 的语法规则:https://lucene.apache.org/core/2_9_4/queryparsersyntax.htmla+(D...

2019-02-15 09:16:59 376

原创 对HBase集群做跨集群数据迁移

概述DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用DistCp操作提供指南并阐述它的工作模型。使用方法基本使...

2019-01-25 20:07:46 1305

转载 LSM树(Log-Structured Merge Tree)存储引擎

LSM树(Log-Structured Merge Tree)存储引擎LSM树(Log-Structured Merge Tree)存储引擎代表数据库:nessDB、leveldb、hbase等核心思想的核心就是放弃部分读能力,换取写入的最大化能力。LSM Tree ,这个概念就是结构化合并树的意思,它的核心思路其实非常简单,就是假定内存足够大,因此不需要每次有数据更新就必须将数据写入...

2019-01-10 19:38:17 143

原创 HBase优化 | HBase写吞吐场景资源消耗量化分析及优化

目录1概述 12 HBase 写链路简要分析 23 Flush&Compaction 24系统开销定量分析 34.1 系统变量 44.2 磁盘容量开销量化分析 54.3 网络开销量化分析 65总结 136参考文献 13 1概述HBase 是一个基于 Google BigTable 论文设计的高可靠性、高性能、可伸缩的分布式存储系统。 网上关于...

2019-01-10 19:30:50 543

原创 Java8 JDK8

1、为什么要学Java8?1.1  简介速度更快(底层的数据结构做了一些更新和改动,垃圾回收机制内存结构做了一些改动)代码更少(增加了新的语法Lambda表达式)强大的StreamAPI便于并行最大化减少空指针异常(Optional容器类)1.2  主要内容Lambda表达式 函数式接口 方法引用与构造器引用 StreamAPI 接口中的默认方法与静态方法...

2018-12-25 10:14:26 1178

原创 Hive常用函数大全

文章目录1 关系运算 1.1 1、等值比较: = 1.2 2、不等值比较: 1.3 3、小于比较: < 1.4 4、小于等于比较: <= 1.5 5、大于比较: > 1.6 6、大于等于比较: >= 1.7 7、空值判断: IS NULL 1.8 8、非空判断: IS NOT NULL 1.9 9、LIKE比较: LIKE 1.1...

2018-12-23 21:06:17 307

转载 Hive drop table时没有反应

Hive drop table时没有反应Hive drop table时没有反应,于是强制中断。网上找了很久的方法,终于在一个大神那里找到了解决之法。但写的略简单,下面对其进行补充。mysql> show variables like 'char%';第一步:进入mysql,输入:show variables like 'char%'。显示如下 此时的ch...

2018-12-11 22:08:08 257

原创 Source、Channel、Sink有哪些数据类型

                                                              Source、Channel、Sink有哪些类型     Flume Source    Source类型                    | 说明    Avro Source                   | 支持Avro协议(实际上是Avro R...

2018-12-10 17:44:05 1075 1

原创 Python3 Flask框架

                                              Flask框架内容原创,侵权必究。学习分享请注明地址:https://blog.csdn.net/Jackie_ZHF/article/details/82592928博主有时间会不定期更新大数据hadoop spark storm人工智能方面的博客目录一、What`s Flask 2-...

2018-09-10 17:26:43 7895

原创 Hadoop2.x搭建部署

Hadoop2.X HA搭建四台机器:hadoop1,hadoop2,hadoop3,hadoop4   NN DN ZK ZKFC JN RM NM(任务管理) Hadoop1 Y   Y Y       Hadoop2 Y Y Y Y Y Y Y Hadoop3   Y Y   Y   Y Hadoop4   Y     Y ...

2018-07-10 19:27:29 228

转载 HBASE 的二级索引之— —Global Indexing

 二级索引之— —Global Indexing转载自朋友的博客 技术分享,https://my.oschina.net/u/3511143/blog/1808831  侵权必究,转载请说明1.1  说明在HBase中,只有一个单一的按照字典序排序的rowKey索引,当使用rowKey来进行数据查询的时候速度较快,但是如果不使用rowKey来查询的话就会使用filter来对全表进行扫描,很大程度上...

2018-07-10 19:15:43 320

原创 Python Hadoop使用时注意的坑-- MRJob框架及python环境运行

时间有限复杂的问题简单说,什么都不如来干货~使用MRJob框架 时用网上说的提交任务到集群的命令,程序会跑着挂掉。。。报143 127 的错误!!后来才发现正确的是:本地运行命令 python mypyfile.py -r local <input> python mypyfile.py -r local <input> ...

2018-06-29 11:34:49 2703

转载 误删HBase数据如何抢救?

数据保护当误删数据发生时候,不管三七二十一,第一要务是进入hbase shell,执行如下命令:如果误删一张表的有多个family里的数据,需要都执行一下:alter 'tt', { NAME => 'f1', KEEP_DELETED_CELLS => TRUE }, { NAME => 'f2', KEEP_DELETED_CELLS => TRUE }设置 KEEP_...

2018-06-29 11:02:57 252 1

原创 MySQL5.7安装部署文档

一、安装配置MySQL的yum源# 安装MySQL的yum源,下面是RHEL6系列的下载地址rpm -Uvh https://dev.mysql.com/get/mysql-community-release-el6-5.noarch.rpm # 安装yum-config-manageryum install yum-utils -y # 禁用MySQL5.6的源yum-config-manage...

2018-06-28 18:55:37 681

原创 Python Hadoop的Wordcount入门示例

        Hadoop 框架是使用Java编写的但是我们仍然需要使用像C++、Python等语言来实现 Hadoop程序。尽管Hadoop官方网站给的示例程序是使用Jython编写并打包成Jar文件,这样显然造成了不便,其实,不一定非要这样来实现,我们可以使用Python与Hadoop 关联进行编程,看看位于/src/examples/python/WordCount.py  的例子。我们将...

2018-05-29 10:16:33 2138

原创 Linux Python3安装部署和pip安装

Linux3.5安装【为什么在Python3.X中选择这个版本,因为本人要使用TensorFlow深度学习框架,而TensorFlow只支持python3.5版本】       如果本机安装了python2,尽量不要管他,使用python3运行python脚本就好,因为可能有程序依赖目前的python2环境,比如yum。不要动现有的python2环境!一、安装python3.5准备环境(很多人死在...

2018-05-28 10:25:52 2276

转载 RPC协议简述

RPC是指远程过程调用,也就是说两台服务器,一个应用部署在其中一台服务器上,想要调用另外一台服务器上应用提供的函数(方法),由于不在一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传达调用的数据。   RPC 采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,调用进程发送一个有进程参数的调用信息到服务进程,然后等待应答信息。在服务端,进程保持睡眠状态直到...

2018-05-25 11:25:42 642

转载 十大经典排序 冒泡 选择 插入 希尔 归并 快速等等

https://www.cnblogs.com/onepixel/articles/7674659.html十大经典排序 不怕你看不懂 十大经典排序 不怕你看不懂 十大经典排序 不怕你看不懂 十大经典排序 不怕你看不懂 十大经典排序 不怕你看不懂 十大经典排序 不怕你看不懂 十大经典排序 不怕你看不懂...

2018-05-21 15:37:03 386

原创 CDH5.4离线安装

Cloudera Manager离线部署CDH文档 目录:Cloudera Manager离线部署CDH文档... 1目录:... 1一、说明... 2二、系统环境搭建... 31、网络配置(所有节点)32、SSH免密码登录... 33、关闭防火墙... 34、关闭SELINUX. 45、安装JDK. 46、设置NTP. 57、安装配置MySql58、下载依赖包... 7三、Cloudera Ma...

2018-05-09 16:27:54 1509

原创 Hive优化

Hive 优化核心思想:把Hive SQL 当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行 --select仅查询本表字段 --where仅对本表字段做条件过滤------------------------------------------------------------------------------Explain 显示执行计划EXPLAIN [EXTE...

2018-05-09 16:14:06 389 1

转载 Maven

注:本文章来自转载 http://www.cnblogs.com/hzg110/p/6936101.html 前言:目前所有的项目都在使用maven,可是一直没有时间去整理学习,这两天正好有时间,好好的整理一下。一、为什么使用Maven这样的构建工具【why】① 一个项目就是一个工程  如果项目非常庞大,就不适合使用package来划分模块,最好是每一个模块对应一个工程,利于分工协作。  借助于m...

2018-04-16 10:38:44 181

原创 MapReduce的源码分析之Cli客户端源码讲解

MapReduce的源码分析之Cli 客户端源码分析:        客户端cli干了什么事情?                 加载配置文件> 执行自定义参数的job任务(框架有很多默认参数)> submit提交任务>计算文件的split切片个数 [maps的个数、输入类型、输入大小]  >  清单信息[block位置信息、block的index、split的大小]  &...

2018-03-09 10:11:47 283

原创 HDFS分布式文件系统特征block底层

HDFS分布式文件系统特征block底层转载注明出处: http://blog.csdn.net/jackie_zhf/article/details/79467624众多分布式文件系统为什么用HDFS? a、可以移动计算到数据所在节点; b、就近读取数据文件和计算 Look 代码: private static void blk() throws Exception { ...

2018-03-07 10:33:16 384

原创 Hadoop之block副本放置策略 Rack机架感知源码

注意:block副本放置策略相关描述在Hadoop官网和源码实现与描述不一致。官网是第一个和第二个副本在同一机架上,第三个在不同机架上 更多随意。但是具体实现如下:•Block的副本放置策略    –第一个副本:放置在上传文件的DN;如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点。    –第二个副本:放置在于第一个副本不同的机架的节点上。    –第三个副本:与第二个副本相同机架...

2018-03-05 17:41:23 1516

原创 Linux磁盘挂载--解决Linux扩容和磁盘IO负载问题

Linux磁盘挂载解决扩容问题        增量数据的情况下,使得硬盘容量满载 解决磁盘IO的负载问题        现有的硬盘IO负载满载下,为了增加多个磁盘来分摊压力,如写入一个磁盘的目录下根据业务划分,写入挂载到不同磁盘的多个路径下,来达到磁盘IO的优化 一、   新增磁盘1、 在所要添加磁盘的虚拟机上右键点击设置。2、点击添加按钮。 3、选择硬盘,点击下一步 4、点击下一步。 5、根据自...

2018-03-05 08:59:28 1093

原创 MapReduce的调优总结

MapReduce的调优总结 Mapreduce服务器调优 1. mapreduce.task.io.sort.factor:   mr程序进行合并排序的时候,打开的文件数量,默认为10个. 2. mapreduce.task.io.sort.mb:   mr程序进行合并排序操作的时候或者mapper写数据的时候,内存大小,默认100M. 3. mapreduce.map.sort.spill.p...

2018-02-26 19:08:06 470

原创 搭建本地yum源

搭建yum本地源 1、虚拟机挂载光盘ios  完整版    2、linux主机中mount命令执行挂载[root@node2 ~]# mount /dev/cdrom /mnt/mount: block device /dev/sr0 is write-protected, mounting read-only[root@node2 ~]# ls /mnt/CentOS_BuildTag  GPL...

2018-02-26 19:03:38 199

原创 HDFS完全分布式搭建

HDFS完全分布式搭建[Hadoop1.X]一、环境准备【如果没有准备好 请查阅然后准备以下环境】1、 JDK (前面已经安装好了)2、 Linux(前面已经安装好了)3、 准备至少3台机器,我们用的是4台(通过克隆虚拟机;配置好网络JDK 时间 hosts,保证节点间能互ping通)4、 时间同步  (ntpdate time.nist.gov)5、 ssh免秘钥登录   (两两互通免秘钥)二、...

2018-02-25 15:38:24 239

原创 HDFS配置参数及优化之实战经验(Linux hdfs)

HDFS优化之实战经验                 Linux系统优化一、禁止文件系统记录时间 Linux文件系统会记录文件创建、修改和访问操作的时间信息,这在读写操作频繁的应用中将带来不小的性能损失。在挂载文件系统时设置noatime和nodiratime可禁止文件系统记录文件和目录的访问时间,这对HDFS这种读取操作频繁的系统来说,可以节约一笔可观的开销。可以修改/etc/fstab文件中...

2018-02-25 15:18:08 2078

原创 Linux下显示类似-bash-4.1# 不显示路径的解决办法

Linux下显示类似-bash-4.1# 不显示路径的解决办法解决办法:    >   打开环境变量 :           vim ~/.bash_profile    >    修改环境变量 添加以下参数:           export PS1='[\u@\h \W]\$'     >    source一下 使其生效            source ~/.bash_...

2018-02-25 15:00:16 730

原创 解决安装MySQL时登录错误--error: 'Access denied for user 'root'@'localhost' (using password: YES)'

在使用Linux安装MySQL登录时报 :    mysqladmin: connect to server at 'localhost' failed   error: 'Access denied for user 'root'@'localhost' (using password: YES)' 错误。解决办法:破解MySQL密码     1、停止mysql服务:service mysqld...

2018-02-25 14:53:17 519 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除