乌镇风云-CSDN博客

原创 java排序之快速排序分析和代码实现

假设用户输入了如下数组：下标 0 1 2 3 4 5 数据 6 2 7 3 8 9 创建变量...

2019-01-28 23:45:45 196

转载 HBASE深入解析

HBase架构组成HBase采用Master/Slave架构搭建集群，它隶属于Hadoop生态系统，由一下类型节点组成：HMaster节点、HRegionServer节点、ZooKeeper集群，而在底层，它将数据存储于HDFS中，因而涉及到HDFS的NameNode、DataNode等，总体结构如下：其中HMaster节点用于：1.管理HRegionServer，实现其负载均衡。2.管...

2019-01-23 00:14:22 346

原创 spark中的jvm调优

1、发生的问题堆内存存放我们创建的一些对象，有老年代和年轻代。理想情况下，老年代都是放一些生命周期很长的对象，数量应该是很少的，比如数据库连接池。我们在spark task执行算子函数（我们自己写的），可能会创建很多对象，这些对象都是要放入JVM年轻代中的。每一次放对象的时候，都是放入eden区域，和其中一个survivor区域。另外一个survivor区域是空闲的。当eden区域和一...

2019-01-20 23:05:45 307

转载 spark数据倾斜解决方案

现象当你的应用程序发生以下情况时你该考虑下数据倾斜的问题了：绝大多数task都可以愉快的执行，总有那么个别task比较慢。比如，假设有10000个task，其中9998个task都很快的给出了结果，还剩那两个慢的拖慢了整个应用，这种情况很常见。原本能够正常执行的Spark作业，某天突然报出OOM（内存溢出）异常，这种情况比较少见。为什么会出现数据倾斜发生？　　在进行sh...

2019-01-17 23:36:37 178

转载 Hbase的rowkey设计和热点问题

一、Hbase中的每条记录的结构Hbase的表组成：一个表可以理解成是行的集合，行（记录）是列族的集合，列族是列的集合。(1) 列族column family：它是column的集合，在创建表的时候就指定，不能频繁修改。值得注意的是，列族的数量越少越好，因为过多的列族相互之间会影响，生产环境中的列族一般是一个到两个。数据的持久化文件HFile中是按照Key-Value存储的，同一个列族...

2019-01-17 00:07:01 386

原创通过经纬度解析商圈Scala实现方式

通过字段中的经纬度用百度的开发者平台，来解析周边的商圈信息，代码如下：package com.utilsimport java.io.UnsupportedEncodingExceptionimport java.net.URLEncoderimport java.security.NoSuchAlgorithmExceptionimport java.utilimport co...

2019-01-14 00:04:55 948 1

原创 hive中字符串和日期的转换常用的函数大全

获取本地时间：用到from_unixtime和unix_timestamp两种函数：from_unixtime：时间戳转日期函数用法：from_unixtime(bigint unixtime[, stringformat])返回值: string例子1：获取当前Linux的系统日期substr(from_unixtime(unix_timestamp()),1,10)...

2019-01-13 00:25:38 56468 2

转载 hive中用group by 来去重作业

首先，Hive的group by和count（distinct）都是去除重复的数据，某种程度上来说，两者产生的结果是一样的。实例代码：select a,count(distinct b) from t group by a执行结果：select tt.a,count(tt.b) from (select a,b from t group by a,b)tt group b...

2019-01-12 00:37:09 1896

原创 sqoop的全量和增量使用详解

全量导入使用1.从MySQL导入到hdfs上：bin/sqoop import --connect jdbc:mysql://node-2:3306/qfbap_ods --username root --password root --table code_category --target-dir /qfbap/ods/bap_code_category --hive-impor...

2019-01-08 00:31:33 926

原创用Scala语言连接HBASE

在大数据背景下，一般会将整理的数据存储到HBASE上，这时，就要用到api去连接HBASE，以实现对表的管理：/** * 上下文标签 */object ContextTags { def main(args: Array[String]): Unit = { if(args.length !=5){ println( """ ...

2019-01-06 00:32:49 2293

转载 spark on yarn 介绍

Spark-On-YARN1.官方文档http://spark.apache.org/docs/latest/running-on-yarn.html2.配置安装安装hadoop：需要安装HDFS模块和YARN模块，HDFS必须安装，spark运行时要把jar包存放到HDFS上。安装Spark：解压Spark安装程序到一台服务器上，修改spark-env.sh配置文件，spark程序将作...

2019-01-04 23:55:39 115

介绍Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcat...

2019-01-04 00:31:16 158

原创 numpy的用法介绍

导入包import numpy as np创建数组#（1）array()：直接创建，类似于列表x = np.array([1,2,3,4,5])print(type(x))#（2）arange()：类似python的rangex = np.arange(10)x = np.arange(5,10)x = np.arange(0,100,10)#（3）random模块下的函数i...

2019-01-03 00:13:32 115

转载 nginx连接kafka

很多时候我们要对nginx产生的日志进行分析都是通过flume监控nginx产生的日志，通过flume把日志文件发送该kafka，flume作为生产者，但是这种方式的缺点就是可能效率会比较慢，除此之外还可以使用kafka直接对接nginx，nginx作为生产者，把log日志直接对接到kafka的某些分区中，这种方法的效率比较高，但是缺点就是可能会出现数据丢失，可以通过把nginx的日志进行一份给k...

2019-01-01 23:07:04 4486

原创一个例子就可以读懂Python面向对象语法

士兵突击需求士兵许三多有一把 AK47士兵可以开火枪能够发射子弹枪装填装填子弹 —— 增加子弹数量009_士兵突击1.1 开发枪类shoot 方法需求1&gt; 判断是否有子弹，没有子弹无法射击2&gt; 使用 print 提示射击，并且输出子弹数量class Gun:def __init__(self, model): # 枪的型号 ...

2018-12-28 23:39:06 226

原创 Python字符串和列表的用法

关系运算符和java不同的有：// : 取整除and :与运算or：或运算not：非运算**：返回x的y次幂循环运算：while运算：i = 5while i<10:print('haha')i+=1for循环# 根据字母个数遍历name = 'abcdef'for temp in name:print(123)print(temp)# 使用rang...

2018-12-27 23:57:50 282

原创用MapReduce实现倒排索引（多job串联）

需求：有大量的文本（文档、网页），需要建立搜索索引所谓倒排索引就是把多个文件的字段进行逐次统计，进行展示。比如说一个test文件夹下有多个文件：a.txt b.txt c.txta.txt 中的字段为： ni ss nib.txt 中的字段为：ni dd nic.txt 中的字段为：ni hao ss(1),第一次MapReduce方法预期输出为...

2018-12-27 00:05:53 615

原创用sqoop从hive读取数据到MySQL是无法导入null值的解决办法

1.当出现java.lang.RuntimeException: Can't parse input data: '\N'这个错误或者是报什么NumberFormalt异常的话时候，说明你的hive表中有空值null，MySQL无法识别导入语句为：bin/sqoop export --connect jdbc:mysql://node-2:3306/qilap_db --username ro...

2018-12-24 22:00:29 3407 1

转载 hive配置MySQL时的乱码解决方案

一.个人初始开发环境的基本情况以及Hive元数据库说明①hive的元数据库改成了mysql(安装完mysql之后也没有进行其它别的设置)②hive-site.xml中设置元数据库对应的配置为 jdbc:mysql://crxy99:3306/hive_cz3q?createDatabaseIfNotExist=true③普通情况下咱们的mysql默认编码是latin1,但是我们在日常...

2018-12-22 21:57:18 407

转载 yum方式安装MySQL，简单明了，拒绝采坑！！！

一、查看原有mysql因为mysql数据库在Linux上实在是太流行了，所以目前下载的主流Linux系统版本基本上都集成了mysql数据库在里面，我们可以通过如下命令来查看我们的操作系统上是否已经安装了mysql数据库[root@zkm ~]# rpm -qa | grep mysql　　// 这个命令就会查看该操作系统上是否已经安装了mysql数据库有的话，我们就通过 rpm -e 命令 ...

2018-12-14 22:49:39 1497

原创 hue的HBASE界面没有删除选项的解决大全

1.HUE 配置文件设置,需要修改的地方[hbase] # Comma-separated list of HBase Thrift servers for clusters in the format of '(name|host:port)'. # Use full hostname with security. hbase_clusters=(Cluster|node-1:9...

2018-12-09 20:04:55 493

原创从HBASE中读取数据，MR进行分析处理输出

从HBASE中读取数据，继承的是TableMapper，不是Mapper，map端主要是从HBASE上获取数据，然后进行输出，输出类型自己可以随意定义。代码如下：package HbaseMR;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.had...

2018-12-08 20:02:48 1417

原创 Nginx的三种应用场景介绍

配置虚拟主机就是在一台服务器启动多个网站。如何区分不同的网站：1、域名不同2、端口不同1.1. 通过端口区分不同虚拟机Nginx的配置文件：/usr/local/nginx/conf/nginx.conf#user nobody;worker_processes 1;#error_log logs/error.log;#error_log logs/error.l...

2018-12-04 22:32:02 1256

原创 Nginx的快速安装和使用

什么是nginxNginx是一款高性能的http 服务器/反向代理服务器及电子邮件（IMAP/POP3）代理服务器。由俄罗斯的程序设计师Igor Sysoev所开发，官方测试nginx能够支支撑5万并发链接，并且cpu、内存等资源消耗却非常低，运行非常稳定。应用场景1、http服务器。Nginx是一个http服务可以独立提供http服务。可以做网页静态服务器。2、虚拟主机。可以实现...

2018-12-04 21:54:21 108 1

原创 java程序生产数据——flume收集数据——kafka消费数据

1.将java程序打成jar包idea在maven project 处双击 package，就会在target下产生jar包ecplice在自己的项目上点击Run as 点击maven build 产生的jar包在target下启动jar包开始生产数据java -cp /home/hadoop/data/hadoopProject-1.0-SNAPSHOT.jar com...

2018-12-01 20:45:11 764

原创 hive之UDF，UDAF，UDTF

自定义UDF步骤：1）创建一个 java 工程，并创建一个 lib 文件夹2）将 hive 的 jar 包解压后，将 apache-hive-1.2.1-bin\lib 文件下的 jar 包都拷贝到 java 工程中。3）创建一个类package com.qianfeng.hive;import org.apache.hadoop.hive.ql.exec.UDF; public cla...

2018-11-29 22:37:55 165

原创 hadooop调优

1.数据输入阶段大量小文件的输入时，使用combineTextinputformat，用法为：job.setInputFormatClass(CombineTextInputFormat.class); CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4mCombineTextInputFormat.setMinInp...

2018-11-29 20:16:31 117

原创 Hadoop的MapReduce程序提交之全过程打通

1）作业提交过程之 YARN作业提交全过程详解（1）作业提交第 0 步：client 调用 job.waitForCompletion 方法，向整个集群提交 MapReduce 作业。第 1 步：client 向 RM 申请一个作业 id。第 2 步：RM 给 client 返回该 job 资源的提交路径和作业 id。第 3 步：client 提交 jar 包、切片信息和配置文件到指定...

2018-11-28 21:01:31 472

原创 HDFS和MapReduce工作原理

HDFS工作流程：namenode工作流程：1）第一阶段：namenode 启动（1）第一次启动 namenode 格式化后，创建 fsimage 和 edits 文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。（2）客户端对元数据进行增删改的请求。（3）namenode 记录操作日志，更新滚动日志。（4）namenode 在内存中对数据进行增删改查。2）第二阶段：Sec...

2018-11-28 20:53:11 2386 1

原创 Linux的shell编程之grep，cut，awk,sed

1.grep查询grep可以进行嵌套查询：-v 是进行取反操作grep 匹配日期grep 匹配 IP地址2.cut 查询-f 2,4 是列查询，第二到第四列cut命令的局限是不能切割多个空格（输出结果为空）3.printf 输出查询%ns:输出字符串，n代表输出几个字符%ni ：输出整数，n代表输出几个数字%m.nf：...

2018-11-26 20:15:36 361

原创互联网广告行业介绍

起源及概念起源：随着信息技术的发展与普及、智能移动终端的迅猛发展。概念：互联网广告就是通过网络广告平台在网络上投放广告。网络优势及表现形式优势：可以追踪、研究用户的偏好，这是互联网相对传统媒体营销的优势，也是其精准营销的基础。这几乎是互联网的天然优势—— 比起传统媒体，每个 IP 背后的网民的上网行为、浏览习惯、注册的个人信息，都可通过技术手段获取、挖掘，通过对上述内容的长期积累...

2018-11-24 09:53:29 3300

原创 RDD和DataFrame和DataSet三者间的区别

RDD vs DataFrames vs DataSet在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后，...

2018-11-23 16:25:24 25211 11

原创 spark之RDD的理解

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它存储的元数据信息，真正的数据在partition分区中，一个RDD中有多个分区，一个分区在executor节点上执行，他就是一个迭代器，一个分区在一台机器上，一台机器可以有多个分区，我们操作的是分布在多台机器上的数据，而RDD是一个代理，对RDD进行操作其实就是对分区进行操作...

2018-11-22 20:11:01 255

原创 kafka直连方式api与Redis

kafka作为生产者，把生产的数据保存到Redis中，读取的是JSON文件，需要导入阿里的包一、pom文件进行设置<dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.9....

2018-11-16 10:31:22 662

原创 kafka是什么，怎么用？

一、kafka集群搭建注意的地方：log.Dirs 这个配置，是存储真实数据的，不是log日志。delete.topic.enable 这个配置大家注意，如果我们不配置，那么删除Topic的时候，不会真正的删除掉，会做一个标记，那么我们需要手动的去删除所有配置。如果配置了的话，就真正的删除了。二.kafka简介Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式...

2018-11-11 20:58:18 3971

原创 spark streaming 与 kafka实现实时流的案例分析

package day14import org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{ Seconds, StreamingContext}/** * Kafka的Receive方法 */object ...

2018-11-08 20:15:05 340

weixin_43087634的博客