自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 大数据 --------- ETL日志数据到HBase表中代码思路

思路:1. Spark App 配置:  应用的名字  Master运行的位置  序列化的格式(在后续的代码中 ImmutableBytesWritable 需要)2. 创建SparkContext对象  主要用于读取需要处理的数据,封装在RDD集合中,调度Jobs执行2.1 读取日志  从哪读,路径2.2 解析日志数据2.2.1 map解析每条数据  (1)调度工具...

2019-08-12 22:25:25 187

转载 Spark序列化问题 java.io.NotSerializableException:org.apache.hadoop.hbase.io.ImmutableBytesWritable

java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable错误原因是因为 ImmutableBytesWritable不能进行序列化(在Java中,如果类需要序列化需要实现Serializable)而文件在经过网络传输时需要序列化(网络传输是二进制传输)(上图为Spark的官方...

2019-08-12 22:24:08 1104

转载 kafka如何彻底删除topic及数据

前言:删除kafka topic及其数据,严格来说并不是很难的操作。但是,往往给kafka 使用者带来诸多问题。项目组之前接触过多个开发者,发现都会偶然出现无法彻底删除kafka的情况。本文总结多个删除kafka topic的应用场景,总结一套删除kafka topic的标准操作方法。step1:如果需...

2019-08-12 22:21:02 194

原创 sparkStreaming处理数据流程

数据源从哪里读取数据,进程数据的处理 Kafka(多数) Flume(少数):Flume可以实时采集数据,然后给Spark TCP socket(开发测试)数据处理DStream#transfotmation 调用转换函数,将一个DStream转成另外一个DStream...

2019-08-10 23:21:34 995

原创 Kafka伪分布式安装

Kafka组件Kafka中发布订阅的对象是topic。  我们可以为每类数据创建一个topic,把向topic发布消息的客户端称作producer,从topic订阅消息的客户端称作consumer。  Producers和consumers可以同时从多个topic读写数据。一个kafka集群由一个或多个broker服务器组成,它负责持久化和备份具体的kafka消息。 topic:消...

2019-08-10 23:13:04 303

转载 机器学习的种类及其典型的任务

学习的种类参考书:图解机器学习1.监督学习(1)定义:指有求知欲的学生从老师那里获取知识、信息,老师提供对错指示、告知最终答案的学习过程。 在机器学习中,计算机 = 学生,周围的环境 = 老师。(2)最终目标:根据在学习过程中获得的经验技能,对没学习过的问题也可以做出正确解答,使计算机获得这种泛化能力。(3)应用:手写文字识别、声音处理、图像处理、垃圾邮件分类...

2019-08-09 23:33:10 330

转载 大数据 --------- ETL日志数据到HBase表中代码思路

思路:1. Spark App 配置:  应用的名字  Master运行的位置  序列化的格式(在后续的代码中 ImmutableBytesWritable 需要)2. 创建SparkContext对象  主要用于读取需要处理的数据,封装在RDD集合中,调度Jobs执行2.1 读取日志   从哪读,路径2.2 解析日志数据2.2.1 ...

2019-08-07 22:49:21 144

原创 Spark 二次排序·

import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object A_SparkGroupSort { //scala程序的入口,也是spark application运行Driver def main(args: Array[String]): Unit = { ...

2019-08-04 22:24:05 199

转载 大数据-Spark的介绍:前世今生

一: 大数据的概述1.1 Spark是什么? Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等。 Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark M...

2019-08-04 22:15:22 349

原创 Spark性能优化:RDD方法优化

对于RDD中某些函数使用注意1.能不使用groupByKey函数就不使用,除非不得已redcueByKey(combiner) = groupBy+ map(变量值相加)redcueByKey可以先进行本地聚合操作2.尽量使用XXPartition函数代替XX函数xx:map/foreach/zip def foreach(f: T...

2019-08-02 22:02:15 341

原创 Spark简介及安装测试

spark是什么?Apache Spark™ is a unified analytics engine for large-scale data processing.:统一分析引擎为海量数据处理 统一:什么样的数据都能处理分析,什么类型的数据都可以处理,实时,离线,流式都可以MapReduce map,reduce函数 将分析的中间结...

2019-08-01 22:37:07 230

转载 Spark启动报错 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not exist

/opt/cdh5.7.6/hadoop-2.6.0-cdh5.7.6/etc/hadoop在我的这个目录下配置过hive的配置文件,所以Spark认为是要和Hive集成(之前使用Sqoop时配置过这个,Spark和hive之间有天然的集成关系,Spark的前身就是在Hive的基础上改出来的)解决报错的办法有两个:  方法一:启动MetaStore进程  方法二:将这个软连接删除...

2019-08-01 22:37:01 1802

原创 Spark RDD

RDD是什么 就是一个集合,在使用的时候,就当做为Scala集合类中List列表实质分布式 存储数据 集合abstract class RDD[T: ClassTag] A Resilient(弹性) Distributed(分布式) Dataset (RDD)Represents(代表) an immutable(不可变), par...

2019-08-01 22:36:54 122

转载 HBase---知识点及使用

1.HBase介绍特点NoSql数据库:面向列存储数据内存存储机制HBase表每行数据都有一个主键:rowkey一个表中:包含一个或多个列簇(Column Family)CF某个字段属于某个列簇,一个列簇下面可以有百万个列HBase存储数据的本质,可以理解为键值对存储:key: row+CF+column+timestampvalue:需要存储的值(值是二进制存储)...

2019-07-30 22:40:24 160

转载 Redis---------- 数据持久化的两种方式 RDB持久化,AOF持久化

1、前言Redis是一种高级key-value数据库。它跟memcached类似,不过数据可以持久化,而且支持的数据类型很丰富。有字符串,链表,集 合和有序集合。支持在服务器端计算集合的并,交和补集(difference)等,还支持多种排序功能。所以Redis也可以被看成是一个数据结构服务 器。Redis的所有数据都是保存在内存中,然后不定期的通...

2019-07-30 22:36:42 152

转载 scala中“=>”的4种使用场景

一直以来都对scala中“=>”的使用比较迷茫,也不知道他表示什么意思。今天就它的使用场景列举如下,希望可以共同探讨。表示函数的返回类型(Function Type)scala> def double(x: Int): Int = x*2 double: (x: Int)Int //定义一个函数变量: scala> var x : (Int) => Int ...

2019-07-28 22:36:56 178

转载 数据倾斜解决方案

数据倾斜定义简单的讲,数据倾斜就是我们在数据计算的时候,由于数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些机器的计算速度远远低于整个集群的平均计算速度,导致整个计算过程十分缓慢。常见数据倾斜现象数据倾斜往往会发生在数据开发的各个环节中,比如:● 用Hive数据计算的时候reduce阶段卡在99.99%● 用SparkStreaming做实时算法的时候,...

2019-07-28 22:36:50 119

转载 IDEA 集成Scala

IDEA 集成Scala步骤安装完毕后,重启IDEA配置Scala SDK新建Scala项目当scala文件夹是灰色状态时,不能新建‘Scala Class’需要将灰色变成“蓝色”再右击选择‘NEW’时,会出现‘Scala Class’选项选择‘Scala Class’后,可选择‘Object’,新建任务步骤安装完毕后,重启IDEA配置Scala SDK新建Scala项...

2019-07-26 23:06:51 173

转载 Redis 和Memcache的区别

现在新浪微博大规模的都是基于redis来架构的。redis和memecache的不同在于:1、存储方式:memecache 把数据全部存在内存之中,断电后会挂掉,数据不能超过内存大小redis有部份存在硬盘上,这样能保证数据的持久性。2、数据支持类型:redis在数据支持上要比memecache多的多。3、使用底层模型不同:新版本的redis直接自己构建了VM 机制 ,因为一般的系统调用系统函数...

2019-07-25 22:46:12 143

原创 REdis单线程以及为什么是单线程却那么快?

redis的单线程架构redis客户端与服务端请求方式redis的客户端与服务器端的模型简化,每次客户端调用都经历:发送命令,执行命令,返回结果所有的命令都会在一个队列里面等待被执行redis是单线程来处理命令的,所以一条命令从客户端发送到了服务端不会立即执行,所有的命令都会进入一个队列,然后逐个被执行。为什么单线程处理那么快(1)纯内存访问,redis的所有数据都...

2019-07-25 22:45:58 235

原创 Redis简介

Redis是什么? Redis 是一个高性能的key-value的Nosql类型的数据库。特点1.独特的key-value(键值对)模型,并且支持多种数据结构。2.内存存储,数据极快3.丰富的附加功能 持久化功能 发布与订阅功能:微信公众号类型 过期键功能:某条数据存储时间,时间到了过期 事务功...

2019-07-25 22:45:48 106

原创 Eclipse+Maven创建Javaweb项目

1.在eclipse中用maven创建项目,File>>new>>Maven Project2.点击next继续,选择maven-archetype-webapp,3.点击next继续4.然后点击finish,web项目就创建好了。5.刚创建好的web项目,index.jsp文件可能会报错“The superclass "javax.serv...

2019-07-25 22:45:27 552

原创 eclipse下配置tomcat

1.打开eclipse软件,window>>Prefereences找到Server,点击Runtime Environment,出现如下图,然后点击Add2.点击Add后出现如下界面,选择自己安装好的tomcat的版本(我安装的是tomcat8.5版本的)3.选择好版本后,点击next,4.点击finish完成点击OK,eclipse下配置t...

2019-07-25 22:44:56 115

原创 zookeeper的分布式安装

思路:可以先安装好一台,然后分发给其他的机器。上传安装包,解压到你想要 安装的目录tar -zxvf zookeeper-3.4.5-cdh5.7.6.tar.gz -C /opt/modules/我这里是安装到了opt下的modules目录下修改配置文件修改zookeepe下conf下的zoo_sample.cfg文件。我用了3台机器做演示server1:代表的是...

2019-07-23 21:38:45 100

转载 分布式CAP定理,为什么不能同时满足三个特性?

在弄清楚这个问题之前,我们先了解一下什么是分布式的CAP定理。根据百度百科的定义,CAP定理又称CAP原则,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),最多只能同时三个特性中的两个,三者不可兼得。一...

2019-07-23 09:27:19 148

原创 NoSQL数据库

什么是NoSQL数据库可以理解为No relational,既非关系型性数据库关系型数据库和非关系型数据库不是对立,而是相辅相成的,nosql数据库有特殊的结构,将数据库存储到内存里面的。从性能的角度来讲,NoSQL数据库的性能优于关系型数据库。从安全性角度考虑,关系型数据库优于NoSQL数据库。所以在项目开发中NOSQL和关系型数据库是一起使用的,达到性能和安全双保证。N...

2019-07-22 23:16:52 207

转载 Hive————分区表和分桶表的区别

1,Hive分区。     是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非...

2019-07-18 23:24:47 203

转载 ETL讲解

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。  ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从...

2019-07-17 22:32:28 152 1

原创 Flume————flume的高级组件

Flume Interceptors:拦截器  功能:通过拦截器对每条数据进行过滤和包装  Timestamp Interceptor:时间戳拦截器    -》在每一个event的头部添加一个keyvalue       key:timestamp       value:当前封装event的时间  Host Interceptor:主机名拦截器    -》在每一个event的头...

2019-07-16 22:59:53 226

转载 hadoop-二次排序

1原理二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果。这里主要讲如何使用一个Mapreduce就可以实现二次排序。Hadoop有自带的SecondarySort程序,但这个程序只能对整数进行排序,所以我们需要对其进行改进,使其可以对任意字符串进行排序。下面会分别列出这两个程序的详解。 Hadoop...

2019-07-15 23:19:46 302

原创 hadoop-二次排序思想

eg.输入:     输出:A 1      A 1B 3      A 2B 1      A 4C 5      B 1A 4      B 3A 2      C 5关键点  自定义,结合数据类型    作为map()函数输出key...

2019-07-15 23:19:09 75

转载 sqoop的基本用法

RDBMS导入HDFSsqoop 默认使用4个map,可以自定义map的数量;导入数据可以指定列;可以使用query参数,导入需要的数据;可以指定字段的分割符。执行脚本文件导入数据:bin/sqoop --options-file /opt/datas/sqoop_imp.shsqoop_imp.sh文件内容:import–connectjdbc:mysql://master:...

2019-07-10 23:34:33 390

转载 CDH版 Hadoop Hive Sqoop 安装

快速搭建CDH版Hadoop1、先关闭已经启动的所有服务2、规划目录结构3、解压Hadoop到指定目录4、修改三个*-env.sh配置文件,Java路径  echo KaTeX parse error: Expected 'EOF', got '&' at position 21: …HOME 获取 Java路径 &̲nbsp;   三个… bin/h...

2019-07-10 23:34:21 255

转载 mssql sqlserver 分组排序函数row_number、rank、dense_rank用法简介及说明

转载:http://www.maomao365.com/?p=5771摘要:在实际的项目开发中,我们经常使用分组函数,对组内数据进行群组后,然后进行组内排序:如:1:取出一个客户一段时间内,最大订单数的行记录2: 取出一个客户一段时间内,最后一次销售记录的行记录————————————————下文将讲述三个分...

2019-07-10 23:34:00 264

原创 linux下的时钟同步

为Hadoop分布式做准备,Linux多台机器,需要保证每台机器时间是一致的方法一:通过Linux crontab实现我们系统可以每1分钟和时间服务器进行同步时间同步,允许存在毫秒基本的误差*/1 * * * * ntpdate ntp_servet_ip方法二:直接使用ntp服务同步外网时间服务器选择一台机器作为同步服务AA与外网同步...

2019-07-08 23:22:03 270

原创 hive安装与配置(一)

hive是什么? hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 Hive是建立在 Hadoop 上的数据...

2019-07-06 22:51:31 147

原创 Hadoop的数据类型及序列化

IntWritable 整数型 LongWritable 长整型数 FloatWritable 浮点数 DoubleWritable 双字节数值 ByteWritable 单字节数值 Text 使用UTF8格式存储的文本 BooleanWritable 布尔型数值 NullWritable 当<key,value&g...

2019-07-05 22:11:45 264

原创 Hadoop组件及功能

Hadoop组件及其作用hadoop有三个主要的核心组件:HDFS(分布式文件存储)、MAPREDUCE(分布式的计算)、YARN(资源调度)。 Hadoop Distributed File System (HDFS™):HDFS是一个分布式文件系统,提供高吞吐量数据存储 Hadoop MapReduce:大数据集合的并行计算 Hadoop YARN: 是一框...

2019-07-05 22:11:10 3655

转载 hadoop的介绍以及发展历史

文章目录1.Hadoop的介绍2.Hadoop是什么?3.Hadoop的起源4.Hadoop的发展历史5.Hadoop的四大特性(优点)6.hadoop的历史版本介绍7.hadoop三大公司发型版本介绍8.hadoop的架构模型(1.x,2.x的各种架构模型介绍)1.Hadoop的介绍Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全...

2019-07-02 22:54:53 1691

转载 分布式与集群

简单说:分布式,是以缩短单个任务的执行时间来提升效率的。集群,是通过提高单位时间内执行的任务数来提升效率。例如:如果一个任务由10个子任务组成,每个子任务单独执行需1小时,则在一台服务器上执行改任务需10小时。采用分布式方案,提供10台服务器,每台服务器只负责处理一个子任务,不考虑子任务间的依赖关系,执行完这个任务只需一个小时。(这种工作...

2019-07-01 22:29:30 99

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除