大数据组件_qq_35561207的博客-CSDN博客

大数据组件

关注

文章平均质量分 55

关注数：文章数：39 文章阅读量：50803 文章收藏量：58

作者: qq_35561207

这个作者很懒，什么都没留下…

展开

1.sparksql读取sql的相关处理操作

19/11/12 20:32:53 INFO CodeGenerator: Code generated in 12.9619 ms19/11/12 20:32:53 INFO CodeGenerator: Code generated in 11.6207 ms19/11/12 20:32:53 INFO MemoryStore: Block broadcast_2 stored as v...

原创 2019-11-12 20:35:04 · 454 阅读 · 0 评论
sparksql之通过 structType 创建 DataFrames（编程接口）

import org.apache.avro.generic.GenericData.StringTypeimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{IntegerType, StructField, StructType}import org.apache.spark.sql.{DataFrame, ...

原创 2019-11-12 20:27:36 · 868 阅读 · 0 评论
1.sparksql的通过 case class 创建 DataFrames（反射）

import org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}object TestDataFrame1 { def main(args: Array[String]): Unit = { val conf=new SparkConf().setAppName("RD...

原创 2019-11-12 20:09:37 · 871 阅读 · 0 评论
1.大数据指CDH集群搭建详细步骤（一）

1.使用CDH,其中CDH表示的意思是Cloudera’s Distribution Including Apache Hadoop，简称“CDH”）基于web的用户界面，支持大多数的hadoop组件，包括了HDFS，MapReduce以及HIve和PigHbase以及Zookeeper以及Sqoop,简化了大数据平台的安装以及使用的难度首先第一步，关闭防火墙，具体的linux命令如下...

原创 2018-11-30 19:04:50 · 1215 阅读 · 1 评论
1.JVM内存变化，监测工具使用

1.使用环境linux:as.sh为监测工具；详细的下载地址以及官方文档如下：https://alibaba.github.io/arthas/执行如下命令：使用linux的top命令查看内存占用情况： ...

原创 2018-11-30 15:48:41 · 666 阅读 · 0 评论
1.linux服务之spoon书写的tr和tjob的验证

1.使用rz进行文件上传，进行从本地文件往linux服务器上面的上传以及下载，，过程如下所示：将本地文件上传到服务器上，使用命令为rz，执行rz命令如下所示：选择相应文件如下所示：点解add再如下图所示：再点击ok，即可完成上传活动：以上为上传的一个例子：上传完成之后如下所示：完成度为100%现在进行在linux上进行文件夹解压操...

原创 2018-11-20 11:10:30 · 450 阅读 · 0 评论
1.ETL绑定JVM出现内存不够问题的解决

1.解决以上出现的一些问题;Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.0“JDK 8兼容性指南” 指出，在Java 8中，命令行标志 MaxPermSize 已被删除。原因是永久代从热点堆中被移除并被转移到本地内存。所以为...

原创 2018-11-22 18:05:37 · 646 阅读 · 0 评论
1.使用spoon进行数据转换，抽取过程如下，，，，大数据组件之ETL

转换过程如下：2018/11/19 17:03:43 - Spoon - Using legacy execution engine2018/11/19 17:03:43 - areacheckdaily - 转换已经从资源库预先载入.2018/11/19 17:03:43 - Spoon - 转换已经打开.2018/11/19 17:03:43 - Spoon - 正在打开转换 [...

原创 2018-11-19 17:11:31 · 3429 阅读 · 0 评论
1.linux使用自带的命令执行spoon写好的job命令以及性能调优策略

1.[root@localhost data_integration]# nohup ./kitchen.sh /file file/desktopstatistics.kjb &[1] 16537[root@localhost data_integration]# nohup: 忽略输入并把输出追加到"nohup.out"^C[root@localhost data_integr...

原创 2018-11-21 09:55:09 · 953 阅读 · 0 评论
1.kafka下载安装教程以及中文手册链接集锦

1.进入kafka官网进行下载，kafka官网路径如下：http://kafka.apache.org/downloads.html显示界面如下所示：我们进行下载已经编译好的下载下面已经编译好了的因为我的scala是2.12.7版本，因此下载的是2.12的kafka版本，具体显示如下：版本尽量保持一致：以下这个链接，有kafka的详细使用文档，以及官方中文书...

原创 2018-11-15 14:55:20 · 914 阅读 · 0 评论
1.CDH集群搭建(三）

1.使用启动命令将ntp服务器启动，如下所示：实现一个从主节点到分布式节点的操作过程如下所示；下面以96到71的免密登陆设置举例如下所示：命令以及执行过程如下所示： ...

原创 2018-12-01 13:43:04 · 128 阅读 · 0 评论
1.记录canal数据库中间件在项目中的实际应用以及过程，附上代码：

增量订阅/消费设计首先生成一个数据库连接字段，如下所示；具体的协议格式，可参见：CanalProtocol.protoget/ack/rollback协议介绍：其中对应的代码，如下所示：Message getWithoutAck(int batchSize)，允许指定batchSize，一次可以获取多条，每次返回的对象为Message，包含的内容为： batchsize是可...

原创 2018-12-06 10:27:52 · 941 阅读 · 0 评论
1.深入理解hive的前世今生(一)

同类型工具PIG（以后也会深入讲述）MR程序（全称是mapreduce程序，是离线程序，在hadoop的集群上进行跑）。//Hadoop对于服务器要求不够，普通机器也可以作为datanode的存储节点。hive是强依赖于hadoop的，也就是离开了hadoop是不行的，必须拥有hadoop。是facebook进行开发的。hadoop集群里面有一个很大的数据，以及需要去计算的需求。...

原创 2019-01-12 16:20:38 · 976 阅读 · 0 评论
1.深入理解hive之数据仓库和数据库的区别

不同之处：1.数据库主要是OLTP的服务2.数据仓库主要进行的是OLAP的服务OLTP：联机事务处理，用来实时记录交易信息，对这类系统的期望是能够快速返回响应信息。，一般是在毫秒级别的，能够快速响应的原因是拥有健全的索引机制。如B+的mysql健全索引，以及B的oracle索引，能够快速的进行DML的一些操作。关键词：事务（原子性的）扩展一下：1》数据的事务处理是行级的...

原创 2019-01-12 17:34:02 · 2183 阅读 · 0 评论
1.Hive与传统数据仓库的比较

1》存储：1.Hive是存储在HDFS，理论上有无限扩展的可能性，因为从文件角度进行理解，hdfs是一个文件夹。2.传统型数据仓库，集群存储，存在容量上限的情况，扩充表容量也有限制，计算速度会急剧下降，只能适应于数据量比较小的商业应用，对于超大规模数据是无能为力的。2》执行引擎1、HIVE依赖于MR框架，可进行各类优化比较少，但是比较简单。2.传统数据仓库可以选择更高效的算法来...

原创 2019-01-12 18:07:10 · 3322 阅读 · 1 评论
1.spark streaming的整体容错性的图解

关键词driver,checkPoint,以及Executor端容错机制:热备class MyReceiver extends Receiver(Storagelevel.memory_only_2){ //当memory.level这里是2的话就是进行一个热备份,默认是双倍的,进行一个热备份.}//冷备份WAL,在每次将数据进行写入的时候,先写一个log的日志,进行一个备份....

原创 2019-03-09 15:43:14 · 186 阅读 · 0 评论
1.大数据环境以及相关参数配置解读

1.首先进入hadoop的平台进行一个相关的展示操作：这里目前用的是已经安装好的hadoop的版本，进行相关的操作：转移到相关的hadoop的安装目录下进行相关的操作：相关的路径，如下所示：进行一个hadoop的相关的目录的一个展示操作：下面依次去解释一下相关的各个目录的一些含义的，作用，以及未来会使用的一些方式。与此同时也是进行一个相关的从节点的相关的配置方式...

原创 2019-03-21 14:06:55 · 288 阅读 · 0 评论
1.azkaban3.X安装步骤

下载完成之后，进入azkaban的相关文件夹：进入该目录：将此源码的true改成false：运行过后来下载相关的数据：

原创 2019-06-04 16:11:45 · 448 阅读 · 1 评论
1.大数据组件之ELK过程之安装logstash-jdbc-input插件

1.安装logstash-jdbc-input插件安装logstash的'jdbc连接文件，首先需要安装ruby，也是为了更好的使用ruby中的gem安装插件，下载地址如下：https://rubyinstaller.org/downloads/（1）下面先写一下ruby的安装教程：得出如下图下载红色框框处文件：可以与logstash放在同一个文件夹目录下： ...

原创 2018-11-15 14:21:58 · 193 阅读 · 0 评论
1.logstash问题报错的解决

1.根据截图可知：ouput是输出到elasticsearch,具体的IP.你可以自己设定。我设定的是本地环境。也就是localhost：9200.input{绑定应用以及端口，beats{}详细的去解析一下。}先百度学习一下beats{}这个具体指的是什么东西。方法：查阅官方文档：官网连接如下：https://www.elastic.co/guide/en/log...

原创 2018-11-13 11:34:49 · 4473 阅读 · 0 评论
1.修改logstash的配置项，以及logstash的配置项解析日志：

1.conf结尾的文件即可，如下图所示：首先了解一下，logstash的过程，如下图所示：从配置文件来表述过程如下所示：然后进入bin目录下，进行执行conf文件加载进去bat文件中去。然后进入bin目录下执行该文件如下，并执行成功； logstash的架构设计：根据打开文件的quene可知：如果有多个不同的输入，由quene作为一个缓冲队列来分...

原创 2018-11-10 13:55:19 · 3422 阅读 · 0 评论
zookeeper深入了解体系结构

1.zookeeper的体系结构图如下所示：(图来自百度)客户端可以连接到每个server,每个server的数据是完全相同的，每个follwer和leader都有连接（如图所示）,接受leader的数据更新操作（并将leader数据更新的数据同步到follower中去),至此来实现数据同步和一致性。Server记录事务日志和快照（虚拟机中名词，可理解为将当前计算机所在状态）到持久存储的过...

原创 2018-10-24 15:13:13 · 1173 阅读 · 0 评论
基于cboard作为设计器与echarts的整合

1.添加实现和未实现效果的图片2.图片具体样式如下：以及3.进入cboard插件查看效果如下：至此绑定了相关的效果图，呈现结果如下；在cboard.json的依赖包中增加，汉化对应的key以及value。 ...

原创 2018-10-31 14:13:04 · 2016 阅读 · 2 评论
大数据组件之spark特点

1.首先针对hadoop的数据存储做个总结：每个块存在三个备份----------------磁盘IO，而且是永久化进行保存，shuffle过程因为需要全局进行排序，中间数据需要溢出持久化写到磁盘中去，这个是十分容易导致磁盘的瓶颈卡顿的，磁盘一边读一边写速度是十分慢的，因此hadoop比较适合做离线处理。2.spark特点：1.快速处理的能力，hadoop的MR把中间件结果存储到磁盘，...

原创 2018-10-26 15:10:08 · 575 阅读 · 0 评论
大数据之hadoop对比spark------数据存储

1.Hadoop的数据都是来自于哪里：答案：磁盘。2.map与reduce可以同时运行吗？答案：不能，由什么决定的，shuffle过程决定的。3.spark为什么比hadoop要快，sprak尽量的避免从磁盘中进行读取，以及配置信息和计算数据，对比这些特性，极大的提高了spark的执行效率，因此，spark的计算能力在一定范围内是比hadoop要优秀一些。存储特点：Bl...

原创 2018-10-26 14:18:14 · 434 阅读 · 0 评论
1.大数据可视化工具Echart------------的学习进阶（一）

1.首先去官网下载依赖的JS依赖包。如图：相关官网，下载路径如下：http://echarts.baidu.com/download.html下载界面如下：请下载完整版，不然代码运行起来，前端控制台。console.log会出现报错信息。具体代码如下：使用的IDE为sublimetext3.打开建立一个网页：代码如下：将引入的文件按照自己的相对路径进行放...

原创 2018-10-31 09:56:09 · 3147 阅读 · 1 评论
大数据计算引擎简介---------------spark

1.首先了解一下saprk，其本质是一个计算引擎。2.定义：大规模数据处理的计算引擎。3.速度：相比于hadoop内置的计算引擎（可以理解为hadoop里面的mapreduce）从官方文档可知：4.可供交互的交互语言技术：官网介绍如下：根据spark源码可以得知：根据源码可以得知源码是支持这些接口的，由此可以得知，是支持Scala,java,pytho,r语...

原创 2018-10-22 15:14:08 · 6067 阅读 · 0 评论
大数据组件之----HIVE，win10下安装以及配置hadoop详细步骤

HIVE其本质是以Hadoop作为基础的数据仓库基础设施。其中hadoop为数据的存储和运行在商业机器上提供了可扩展以及容错性的可能，其中容错性可通过副本来进行理解。目标：HIVE是让数据汇总更加简单和针对大容量数据的查询和分析，提供了SWL来使得用户可以更简单查询，汇总和数据分析，其中HIVE的SQL为用户提供了多中地方来融合他们自己的方法实现自定义分析，例如UDFS。特性：（1...

原创 2018-10-19 00:30:25 · 4476 阅读 · 0 评论
大数据组件之zookeeper核心处理 ----paxos算法

1.如果理解不了paxos算法，那么也就理解不了zookeeper的核心处理了。理论部分（问题产生的背景）：常见的分布式系统中，总会发生例如：机器宕机，以及网络异常（网络异常包括消息的延迟，丢失，重复，乱序，以及网络分区问题）等情况paxos目的就是解决如何在发生上述问题的异常的分布式系统中，快速正确的在集群中堆某个数据的值达成一致，也就是一致性算法，并保证以上任何异常，都不会破坏...

原创 2018-10-18 16:51:40 · 127 阅读 · 0 评论
1.使用Echart完成前台到服务端交互，包括数据库交互。

1.https://blog.csdn.net/feifuzeng/article/details/744644502.Echart从后台动态获取数据的，详细做法。https://blog.csdn.net/yelin042/article/details/779616873.动态获取后台数据详解：https://blog.csdn.net/zfb52572/article/det...

原创 2018-10-31 19:18:43 · 1218 阅读 · 0 评论
cboard与Echart的数据源绑定。

cboard结合Echart实现一个数据源的绑定。成功的标志如下：之后进行保存操作：

原创 2018-10-31 19:55:36 · 745 阅读 · 0 评论
1.ruby依赖之Devkit安装步骤-----logtash的输入配置

1.首先进入ruby官网，下载DevKit-mingw64-64-4.7.2-20130224-1432-sfx官网地址如下：http://rubyinstaller.org/下载如下图的框框：下载自己电脑所对应的位数3命令行进入devkit目录，运行runby dk.rb init,运行完成后会生成一个config.yml文件如下图所示config.yml已经生成...

原创 2018-11-10 11:22:23 · 761 阅读 · 0 评论
1.大数据组件之-----------HIVE（底层源码分析）

1.HIVE是数据仓库，先标记一下，晚上学习。

原创 2018-11-07 16:58:01 · 814 阅读 · 0 评论
1.ELK工具之--------------kibana的整合，安装，操作。

1.首先打开该文件：打开kibana下的config文件下的kibana.yml如图所示：更改如下参数：以及对Elasticsearch做一个数据服务器的采集设置：如下图所示：首先了解一下kibana是什么，首先kibana是一个ES的可视化平台也就是web可视化工具，用来搜索以及查看和交互的平台。config的配置文件完成之后，进行下面的操作：进入ki...

原创 2018-11-07 15:02:15 · 248 阅读 · 0 评论
1.ELK工具之----------logstash详细解释

1.可先看看这个连接。https://blog.csdn.net/chenleiking/article/details/735639302.logtash的启动成功标志如下：如下图所示：首先先了解一下，ELK的结构图：其中logstash的内部图如下：用代码来显示如下：主要的一个配置文件如下：配置文件中的代码如下：input中配置的是...

原创 2018-11-07 14:15:58 · 338 阅读 · 0 评论
1.EKL在项目中担当的位置

1》Elastiasearch下文用E代替，logstash用L代替，kibana用K代替。一:E普遍被称为ES是一个分布式搜索引擎，特点：（1）分布式，（2）零配置，（3）自动发现，（4）索引自动分片（5）索引副本机制 (6)自动搜索负载。二：logs...

原创 2018-11-07 11:01:35 · 304 阅读 · 0 评论
1.ELK工具之--logstash安装不成功问题解决。（因找不到或加载主类不成功问题的解决。）

1.jdk安装成功之后进行校验配置：至此logstash安装完成。logstash是依赖JDK的，如果jdk自定义安装在C盘，program files中间会有空格，将环境变量改变如下，即可解决这个读取不到的问题。将环境变量改变如下即可解决：用Progra~1代替program file.即可。 ...

原创 2018-11-06 13:15:31 · 1107 阅读 · 1 评论
1.ELK的相关工具已经定义和使用

1.logstash是一个接收，处理工具，支持系统日志，几乎所有日志类型。依赖条件javalogstash运行时依赖java运行环境(jre)。

原创 2018-11-03 16:04:42 · 112 阅读 · 0 评论
zookeeper

玩转zookeeper，首先了解一下zookeeper是什么东西，ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，它是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户。 zookeeper它能为HDFS，HBase，Mapreduce，Yarn...

原创 2018-09-13 16:34:47 · 119 阅读 · 0 评论

大数据组件

作者: qq_35561207

1.sparksql读取sql的相关处理操作

sparksql之通过 structType 创建 DataFrames（编程接口）

1.sparksql的通过 case class 创建 DataFrames（反射）

1.大数据指CDH集群搭建详细步骤（一）

1.JVM内存变化，监测工具使用

1.linux服务之spoon书写的tr和tjob的验证

1.ETL绑定JVM出现内存不够问题的解决

1.使用spoon进行数据转换，抽取过程如下，，，，大数据组件之ETL

1.linux使用自带的命令执行spoon写好的job命令以及性能调优策略

1.kafka下载安装教程以及中文手册链接集锦

1.CDH集群搭建(三）

1.记录canal数据库中间件在项目中的实际应用以及过程，附上代码：

1.深入理解hive的前世今生(一)

1.深入理解hive之数据仓库和数据库的区别

1.Hive与传统数据仓库的比较

1.spark streaming的整体容错性的图解

1.大数据环境以及相关参数配置解读

1.azkaban3.X安装步骤

1.大数据组件之ELK过程之安装logstash-jdbc-input插件

1.logstash问题报错的解决

1.修改logstash的配置项，以及logstash的配置项解析日志：

zookeeper深入了解体系结构

基于cboard作为设计器与echarts的整合

大数据组件之spark特点

大数据之hadoop对比spark------数据存储

1.大数据可视化工具Echart------------的学习进阶（一）

大数据计算引擎简介---------------spark

大数据组件之----HIVE，win10下安装以及配置hadoop详细步骤

大数据组件之zookeeper核心处理 ----paxos算法

1.使用Echart完成前台到服务端交互，包括数据库交互。

cboard与Echart的数据源绑定。

1.ruby依赖之Devkit安装步骤-----logtash的输入配置

1.大数据组件之-----------HIVE（底层源码分析）

1.ELK工具之--------------kibana的整合，安装，操作。

1.ELK工具之----------logstash详细解释

1.EKL在项目中担当的位置

1.ELK工具之--logstash安装不成功问题解决。（因找不到或加载主类不成功问题的解决。）

1.ELK的相关工具已经定义和使用

zookeeper