Iamarookie999-CSDN博客

原创大数据 --------- ETL日志数据到HBase表中代码思路

思路：1. Spark App 配置：应用的名字 Master运行的位置序列化的格式（在后续的代码中 ImmutableBytesWritable 需要）2. 创建SparkContext对象主要用于读取需要处理的数据，封装在RDD集合中，调度Jobs执行2.1 读取日志从哪读，路径2.2 解析日志数据2.2.1 map解析每条数据（1）调度工具...

2019-08-12 22:25:25 187

转载 Spark序列化问题 java.io.NotSerializableException:org.apache.hadoop.hbase.io.ImmutableBytesWritable

java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable错误原因是因为 ImmutableBytesWritable不能进行序列化（在Java中，如果类需要序列化需要实现Serializable）而文件在经过网络传输时需要序列化（网络传输是二进制传输）（上图为Spark的官方...

2019-08-12 22:24:08 1104

转载 kafka如何彻底删除topic及数据

前言：删除kafka topic及其数据，严格来说并不是很难的操作。但是，往往给kafka 使用者带来诸多问题。项目组之前接触过多个开发者，发现都会偶然出现无法彻底删除kafka的情况。本文总结多个删除kafka topic的应用场景，总结一套删除kafka topic的标准操作方法。step1：如果需...

2019-08-12 22:21:02 194

原创 sparkStreaming处理数据流程

数据源从哪里读取数据，进程数据的处理 Kafka（多数） Flume(少数)：Flume可以实时采集数据，然后给Spark TCP socket（开发测试）数据处理DStream#transfotmation 调用转换函数，将一个DStream转成另外一个DStream...

2019-08-10 23:21:34 995

原创 Kafka伪分布式安装

Kafka组件Kafka中发布订阅的对象是topic。　　我们可以为每类数据创建一个topic，把向topic发布消息的客户端称作producer，从topic订阅消息的客户端称作consumer。　　Producers和consumers可以同时从多个topic读写数据。一个kafka集群由一个或多个broker服务器组成，它负责持久化和备份具体的kafka消息。　topic：消...

2019-08-10 23:13:04 303

转载机器学习的种类及其典型的任务

学习的种类参考书：图解机器学习1.监督学习（1）定义：指有求知欲的学生从老师那里获取知识、信息，老师提供对错指示、告知最终答案的学习过程。在机器学习中，计算机 = 学生，周围的环境 = 老师。（2）最终目标：根据在学习过程中获得的经验技能，对没学习过的问题也可以做出正确解答，使计算机获得这种泛化能力。（3）应用：手写文字识别、声音处理、图像处理、垃圾邮件分类...

2019-08-09 23:33:10 330

转载大数据 --------- ETL日志数据到HBase表中代码思路

思路：1. Spark App 配置：应用的名字 Master运行的位置序列化的格式（在后续的代码中 ImmutableBytesWritable 需要）2. 创建SparkContext对象主要用于读取需要处理的数据，封装在RDD集合中，调度Jobs执行2.1 读取日志从哪读，路径2.2 解析日志数据2.2.1 ...

2019-08-07 22:49:21 144

原创 Spark 二次排序·

import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object A_SparkGroupSort { //scala程序的入口，也是spark application运行Driver def main(args: Array[String]): Unit = { ...

2019-08-04 22:24:05 199

转载大数据-Spark的介绍：前世今生

一：大数据的概述1.1 Spark是什么？ Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。 Spark包含了大数据领域常见的各种计算框架：比如Spark Core用于离线计算，Spark SQL用于交互式查询，Spark Streaming用于实时流式计算，Spark M...

2019-08-04 22:15:22 349

原创 Spark性能优化：RDD方法优化

对于RDD中某些函数使用注意1.能不使用groupByKey函数就不使用，除非不得已redcueByKey（combiner） = groupBy+ map(变量值相加)redcueByKey可以先进行本地聚合操作2.尽量使用XXPartition函数代替XX函数xx:map/foreach/zip def foreach(f: T...

2019-08-02 22:02:15 341

原创 Spark简介及安装测试

spark是什么？Apache Spark™ is a unified analytics engine for large-scale data processing.：统一分析引擎为海量数据处理统一：什么样的数据都能处理分析，什么类型的数据都可以处理，实时，离线，流式都可以MapReduce map，reduce函数将分析的中间结...

2019-08-01 22:37:07 230

转载 Spark启动报错 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not exist

/opt/cdh5.7.6/hadoop-2.6.0-cdh5.7.6/etc/hadoop在我的这个目录下配置过hive的配置文件，所以Spark认为是要和Hive集成(之前使用Sqoop时配置过这个,Spark和hive之间有天然的集成关系，Spark的前身就是在Hive的基础上改出来的)解决报错的办法有两个：方法一：启动MetaStore进程方法二：将这个软连接删除...

2019-08-01 22:37:01 1802

原创 Spark RDD

RDD是什么就是一个集合，在使用的时候，就当做为Scala集合类中List列表实质分布式存储数据集合abstract class RDD[T: ClassTag] A Resilient（弹性） Distributed（分布式） Dataset (RDD)Represents（代表） an immutable（不可变）, par...

2019-08-01 22:36:54 122

转载 HBase---知识点及使用

1.HBase介绍特点NoSql数据库：面向列存储数据内存存储机制HBase表每行数据都有一个主键：rowkey一个表中：包含一个或多个列簇（Column Family）CF某个字段属于某个列簇，一个列簇下面可以有百万个列HBase存储数据的本质，可以理解为键值对存储：key: row+CF+column+timestampvalue:需要存储的值（值是二进制存储）...

2019-07-30 22:40:24 160

转载 Redis---------- 数据持久化的两种方式 RDB持久化，AOF持久化

1、前言Redis是一种高级key-value数据库。它跟memcached类似，不过数据可以持久化，而且支持的数据类型很丰富。有字符串，链表，集合和有序集合。支持在服务器端计算集合的并，交和补集(difference)等，还支持多种排序功能。所以Redis也可以被看成是一个数据结构服务器。Redis的所有数据都是保存在内存中，然后不定期的通...

2019-07-30 22:36:42 152

转载 scala中“=>”的4种使用场景

一直以来都对scala中“=>”的使用比较迷茫，也不知道他表示什么意思。今天就它的使用场景列举如下，希望可以共同探讨。表示函数的返回类型(Function Type)scala> def double(x: Int): Int = x*2 double: (x: Int)Int //定义一个函数变量: scala> var x : (Int) => Int ...

2019-07-28 22:36:56 178

转载数据倾斜解决方案

数据倾斜定义简单的讲，数据倾斜就是我们在数据计算的时候，由于数据的分散度不够，导致大量的数据集中到了一台或者几台机器上计算，这些机器的计算速度远远低于整个集群的平均计算速度，导致整个计算过程十分缓慢。常见数据倾斜现象数据倾斜往往会发生在数据开发的各个环节中，比如：● 用Hive数据计算的时候reduce阶段卡在99.99%● 用SparkStreaming做实时算法的时候，...

2019-07-28 22:36:50 119

转载 IDEA 集成Scala

IDEA 集成Scala步骤安装完毕后，重启IDEA配置Scala SDK新建Scala项目当scala文件夹是灰色状态时，不能新建‘Scala Class’需要将灰色变成“蓝色”再右击选择‘NEW’时，会出现‘Scala Class’选项选择‘Scala Class’后，可选择‘Object’，新建任务步骤安装完毕后，重启IDEA配置Scala SDK新建Scala项...

2019-07-26 23:06:51 173

现在新浪微博大规模的都是基于redis来架构的。redis和memecache的不同在于：1、存储方式：memecache 把数据全部存在内存之中，断电后会挂掉，数据不能超过内存大小redis有部份存在硬盘上，这样能保证数据的持久性。2、数据支持类型：redis在数据支持上要比memecache多的多。3、使用底层模型不同：新版本的redis直接自己构建了VM 机制，因为一般的系统调用系统函数...

2019-07-25 22:46:12 143

原创 REdis单线程以及为什么是单线程却那么快？

redis的单线程架构redis客户端与服务端请求方式redis的客户端与服务器端的模型简化，每次客户端调用都经历：发送命令，执行命令，返回结果所有的命令都会在一个队列里面等待被执行redis是单线程来处理命令的，所以一条命令从客户端发送到了服务端不会立即执行，所有的命令都会进入一个队列，然后逐个被执行。为什么单线程处理那么快（1）纯内存访问，redis的所有数据都...

2019-07-25 22:45:58 235

原创 Redis简介

Redis是什么？ Redis 是一个高性能的key-value的Nosql类型的数据库。特点1.独特的key-value（键值对）模型，并且支持多种数据结构。2.内存存储，数据极快3.丰富的附加功能持久化功能发布与订阅功能：微信公众号类型过期键功能：某条数据存储时间，时间到了过期事务功...

2019-07-25 22:45:48 106

原创 Eclipse+Maven创建Javaweb项目

1.在eclipse中用maven创建项目，File>>new>>Maven Project2.点击next继续，选择maven-archetype-webapp，3.点击next继续4.然后点击finish，web项目就创建好了。5.刚创建好的web项目，index.jsp文件可能会报错“The superclass "javax.serv...

2019-07-25 22:45:27 552

原创 eclipse下配置tomcat

1.打开eclipse软件，window>>Prefereences找到Server，点击Runtime Environment，出现如下图，然后点击Add2.点击Add后出现如下界面，选择自己安装好的tomcat的版本（我安装的是tomcat8.5版本的）3.选择好版本后，点击next，4.点击finish完成点击OK，eclipse下配置t...

2019-07-25 22:44:56 115

原创 zookeeper的分布式安装

思路:可以先安装好一台，然后分发给其他的机器。上传安装包，解压到你想要安装的目录tar -zxvf zookeeper-3.4.5-cdh5.7.6.tar.gz -C /opt/modules/我这里是安装到了opt下的modules目录下修改配置文件修改zookeepe下conf下的zoo_sample.cfg文件。我用了3台机器做演示server1：代表的是...

2019-07-23 21:38:45 100

转载分布式CAP定理，为什么不能同时满足三个特性？

在弄清楚这个问题之前，我们先了解一下什么是分布式的CAP定理。根据百度百科的定义，CAP定理又称CAP原则，指的是在一个分布式系统中，Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），最多只能同时三个特性中的两个，三者不可兼得。一...

2019-07-23 09:27:19 148

原创 NoSQL数据库

什么是NoSQL数据库可以理解为No relational,既非关系型性数据库关系型数据库和非关系型数据库不是对立，而是相辅相成的，nosql数据库有特殊的结构，将数据库存储到内存里面的。从性能的角度来讲，NoSQL数据库的性能优于关系型数据库。从安全性角度考虑，关系型数据库优于NoSQL数据库。所以在项目开发中NOSQL和关系型数据库是一起使用的，达到性能和安全双保证。N...

2019-07-22 23:16:52 207

转载 Hive————分区表和分桶表的区别

1，Hive分区。是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非...

2019-07-18 23:24:47 203

转载 ETL讲解

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。　　ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从...

2019-07-17 22:32:28 152 1

原创 Flume————flume的高级组件

Flume Interceptors：拦截器功能：通过拦截器对每条数据进行过滤和包装 Timestamp Interceptor：时间戳拦截器 -》在每一个event的头部添加一个keyvalue key：timestamp value:当前封装event的时间 Host Interceptor：主机名拦截器 -》在每一个event的头...

2019-07-16 22:59:53 226

转载 hadoop-二次排序

1原理二次排序就是首先按照第一字段排序，然后再对第一字段相同的行按照第二字段排序，注意不能破坏第一次排序的结果。这里主要讲如何使用一个Mapreduce就可以实现二次排序。Hadoop有自带的SecondarySort程序，但这个程序只能对整数进行排序，所以我们需要对其进行改进，使其可以对任意字符串进行排序。下面会分别列出这两个程序的详解。 Hadoop...

2019-07-15 23:19:46 302

原创 hadoop-二次排序思想

eg.输入：输出：A 1 A 1B 3 A 2B 1 A 4C 5 B 1A 4 B 3A 2 C 5关键点自定义，结合数据类型作为map()函数输出key...

2019-07-15 23:19:09 75

转载 sqoop的基本用法

RDBMS导入HDFSsqoop 默认使用4个map，可以自定义map的数量；导入数据可以指定列；可以使用query参数，导入需要的数据；可以指定字段的分割符。执行脚本文件导入数据：bin/sqoop --options-file /opt/datas/sqoop_imp.shsqoop_imp.sh文件内容：import–connectjdbc:mysql://master:...

2019-07-10 23:34:33 390

转载 CDH版 Hadoop Hive Sqoop 安装

快速搭建CDH版Hadoop1、先关闭已经启动的所有服务2、规划目录结构3、解压Hadoop到指定目录4、修改三个*-env.sh配置文件，Java路径 echo KaTeX parse error: Expected 'EOF', got '&' at position 21: …HOME 获取 Java路径 &̲nbsp;   三个… bin/h...

2019-07-10 23:34:21 255

转载 mssql sqlserver 分组排序函数row_number、rank、dense_rank用法简介及说明

转载:http://www.maomao365.com/?p=5771摘要:在实际的项目开发中，我们经常使用分组函数,对组内数据进行群组后，然后进行组内排序：如：1：取出一个客户一段时间内，最大订单数的行记录2: 取出一个客户一段时间内，最后一次销售记录的行记录————————————————下文将讲述三个分...

2019-07-10 23:34:00 264

原创 linux下的时钟同步

为Hadoop分布式做准备，Linux多台机器，需要保证每台机器时间是一致的方法一：通过Linux crontab实现我们系统可以每1分钟和时间服务器进行同步时间同步，允许存在毫秒基本的误差*/1 * * * * ntpdate ntp_servet_ip方法二：直接使用ntp服务同步外网时间服务器选择一台机器作为同步服务AA与外网同步...

2019-07-08 23:22:03 270

原创 hive安装与配置（一）

hive是什么？ hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。 Hive是建立在 Hadoop 上的数据...

2019-07-06 22:51:31 147

原创 Hadoop的数据类型及序列化

IntWritable 整数型 LongWritable 长整型数 FloatWritable 浮点数 DoubleWritable 双字节数值 ByteWritable 单字节数值 Text 使用UTF8格式存储的文本 BooleanWritable 布尔型数值 NullWritable 当<key,value&g...

2019-07-05 22:11:45 264

原创 Hadoop组件及功能

Hadoop组件及其作用hadoop有三个主要的核心组件：HDFS（分布式文件存储）、MAPREDUCE（分布式的计算）、YARN（资源调度）。 Hadoop Distributed File System (HDFS™):HDFS是一个分布式文件系统，提供高吞吐量数据存储 Hadoop MapReduce:大数据集合的并行计算 Hadoop YARN: 是一框...

2019-07-05 22:11:10 3655

转载 hadoop的介绍以及发展历史

文章目录1.Hadoop的介绍2.Hadoop是什么？3.Hadoop的起源4.Hadoop的发展历史5.Hadoop的四大特性（优点）6.hadoop的历史版本介绍7.hadoop三大公司发型版本介绍8.hadoop的架构模型（1.x，2.x的各种架构模型介绍）1.Hadoop的介绍Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全...

2019-07-02 22:54:53 1691

转载分布式与集群

简单说：分布式，是以缩短单个任务的执行时间来提升效率的。集群，是通过提高单位时间内执行的任务数来提升效率。例如：如果一个任务由10个子任务组成，每个子任务单独执行需1小时，则在一台服务器上执行改任务需10小时。采用分布式方案，提供10台服务器，每台服务器只负责处理一个子任务，不考虑子任务间的依赖关系，执行完这个任务只需一个小时。(这种工作...

2019-07-01 22:29:30 99

空空如也

空空如也