大数据内部核心原理
qq_35561207
这个作者很懒,什么都没留下…
展开
-
zookeeper安装成功标志
Gradle 4.10.1Build time: 2018-09-12 11:33:27 UTC Revision: 76c9179ea9bddc32810f9125ad97c3315c544919Kotlin DSL: 1.0-rc-6 Kotlin: 1.2.61 Groovy: 2.4.15 Ant: Apache A...原创 2018-09-13 18:41:44 · 2706 阅读 · 0 评论 -
1.linux下安装JDK详细步骤,如下所示
1.第一步检查是否安装了jdk执行命令如下:显示结果如下图所示:检查JDK的安装包,显示结果如下所示:在usr/lib下面新建一个JVM的文件夹:如下图所示:执行命令如下所示:进入JVM所对应的文件夹,如图所示:使用命令cd /usr/lib/jvm将子节点需要进行部署的JDK进行部署将需要的JDK上传到服务器上面:使用linux命令...原创 2018-12-01 14:45:17 · 249 阅读 · 0 评论 -
1.CDH集群搭建(四)
1.修改每台节点服务器的有关配置hostname,selinux关闭以及防火墙进行关闭:分别对三台服务器进行修改,每台都要进行hosts的配置进行更改:如下图所示:三台分布式集群节点服务器的配置以及验证,如下所示:从主节点开始的配置开始验证过程如下所示:其中96的hostname定义为cdh1.并且配置相关的网络接口服务如下所示:接着配置71上面的network的配...原创 2018-12-01 16:14:37 · 143 阅读 · 0 评论 -
1.数据库中间件canal的使用实例
1.其中cannal.properties是主配置文件,其中cannal.port是用以指定监听的端口。instance/instance.properties则是各个实例的配置文件,主要的配置项有:cannal.properties进行相关的配置如下所示: 其中还会有一个配置文件instanace.properties则是各个实例的配置文件:相关配置文件实例如下所示:...原创 2018-12-01 18:02:08 · 668 阅读 · 0 评论 -
1.数据库中间件之cannal---之首先mysql社区版安装
1.cannal是一个数据库中间件:cannal的服务端是模拟mysql的节点:将原始的mysql的服务彻底删除然后打开服务验证一下看mysql服务是否还存在这样的话,mysql的所有服务都结束了,可以重新执行了:如果权限不够那么就用cmd的管理员权限进行删除:这样就可以删除成功了。去服务中看一下,mysql相关的所有服务就关闭了:至此完成卸载所有的操作...原创 2018-12-03 18:48:01 · 710 阅读 · 0 评论 -
1.编写代码,模拟定时对流数据进行定时刷新
package com.wutos.sync.component;import com.alibaba.fastjson.JSONObject;import com.google.common.collect.Lists;import com.mongodb.client.MongoCollection;import com.mongodb.client.MongoCursor;im...原创 2018-12-10 09:39:43 · 281 阅读 · 0 评论 -
1.change stream方式实现对mongodb的数据实时监控代码
package com.wutos.sync.client.component;import com.alibaba.fastjson.JSONObject;import com.google.common.collect.Lists;import com.mongodb.MongoClient;import com.mongodb.MongoClientURI;import com...原创 2018-12-22 12:13:12 · 3538 阅读 · 0 评论 -
1.使用mongotemplate完成对mongodb的数据写入,更新和修改操作
package com.wutos.sync.service.impl;import com.alibaba.fastjson.JSONObject;import com.google.common.collect.Lists;import com.mongodb.BasicDBObject;import com.mongodb.DBObject;import com.wutos.s...原创 2018-12-22 12:15:32 · 8947 阅读 · 1 评论 -
1.大数据核心语言scala(一)
在shell中键入scala验证scala的版本,这时候也会同时去启动REPL,scala的版本必须2.11或以上版本才好。键入quit键退出REPLscala是JVM语言,对于java -version是有一定依赖的,因此需要1.6版本以上的java version才可以。如上图所示,现在我们再次进入REPL,进行相关的操作:scala也有类似于python的ptorch...原创 2018-12-23 11:35:14 · 268 阅读 · 0 评论 -
1.数据库中间件cannal
其中cannal的官网地址如下所示:https://github.com/alibaba/canal具体解析如下所示:具体过程显示如下所示:其中cannal的基本原理如下所示:找到mysql的init文件,具体步骤如下1.服务:可以得知我安装的mysql是8.0的版本:进入c盘的ProgramData目录的mysql文件夹,进入my.ini文件夹...原创 2019-01-03 16:43:45 · 1920 阅读 · 0 评论 -
1.hadoop大数据体系相关的操作过程如下所示:
Es以及插件相关的过程:https://blog.csdn.net/sinat_28224453/article/details/51134978flume配置相关过程:https://blog.csdn.net/u011254180/article/details/80000763linux下hadoop的相关配置操作如下所示:https://www.cnblogs.com/...转载 2019-04-10 14:36:33 · 108 阅读 · 0 评论 -
1.深入剖析hadoop的运行过程以及日志采集经过
Hadoop中的日志包含三个部分,Application Master产生的运行日志和Container的日志查看hdfs下的目录命令为hdfs dfs -ls \如图所示:其中环境变量中的配置情况如下所示:其中诸如NameNode、DataNode、ResourceManage等系统自带的服务输出来的日志默认是存放在{hadoop_home}的logs目录下面的:如下...原创 2019-06-04 16:12:16 · 312 阅读 · 0 评论 -
1.spark2.0的spark session相关的操作过程文档集合
相关的hive的链接如下所示:http://master:50070/explorer.html#/user/hive/warehouse/相关代码显示如下所示:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmln...原创 2019-06-04 16:13:01 · 197 阅读 · 0 评论 -
1.hive的离线场景应用
1.搭建hive的相关的配置以及过程:其中hive的完整的目录结构如下所示:进行相关的解析,hive的完整目录如下所示:使用linux命令将mysql的相关的jar包放入到hive的lib目录下面去:放好之后,目录显示过程,如下所示:相关的jar包已经放好了,接下来使用mysql代替hive默认的数据库,进行相关的mestore的相关配置,过程如下所示:默认情况...原创 2019-06-04 16:13:41 · 315 阅读 · 0 评论 -
1.转载博客sparkSQL实战
https://www.cnblogs.com/hadoop-dev/p/6742677.html转载 2019-06-20 17:30:46 · 112 阅读 · 0 评论 -
1.flume下载教程以及学习指南(-),之linux下JDK的安装
1.flume是何logstash一样是一个数据收集装置,但是flume更加主流,相对于ogstash而言功能更加的强大相关下载安装教程如下所示:首先进入官网,具体链接如下所示:http://flume.apache.org/download.html下载如下红色部分链接: 下载目录如下所示:首先找个linux下完整的服务器运行一些服务,保证搭建cdh集群环境的...原创 2018-11-30 15:37:45 · 455 阅读 · 0 评论 -
1,ssh工具背景色设置
1.右键打开properties点击打开如下所示: 全部配置完成之后,展示界面如下所示;至此完成所有的对接原创 2018-11-29 17:42:53 · 1733 阅读 · 0 评论 -
1.HDFS存储
1.HDFS是hadoop的分布式文件系统。特性:(1)HADFS是基于java的一个分布式文件系统。 (2)基于unix/Linux的操作 (3)是hadoop的最重要的核心组件(可以理解为存储即基础) (4)支持顺序写入,而非随机定位书写。HDFS的设计前提以及设计目标:(1)HDFS适合存储大的文件,单个文件存储达到百M以...原创 2018-10-17 15:57:59 · 194 阅读 · 0 评论 -
大数据计算引擎简介---------------spark
1.首先了解一下saprk,其本质是一个计算引擎。2.定义:大规模数据处理的计算引擎。3.速度:相比于hadoop内置的计算引擎(可以理解为hadoop里面的mapreduce)从官方文档可知:4.可供交互的交互语言技术:官网介绍如下:根据spark源码可以得知:根据源码可以得知源码是支持这些接口的,由此可以得知,是支持Scala,java,pytho,r语...原创 2018-10-22 15:14:08 · 6017 阅读 · 0 评论 -
大数据基础之Scala创建项目步骤
1.file->new ->module,进入如下界面2.选择scala,右边的scala3.然后给项目取名字(如图所示)4.引入scala所依赖的SDK方法如下1.之后点击ok回到上一级目录,如下图所示:之后给Scala取名字,如下: 5.点击finish.6..完成之后,显示的目录结构如下:之后将会同时对比java以及sc...原创 2018-10-20 15:57:39 · 431 阅读 · 0 评论 -
大数据分析cboard整合spring boot
1.查看spring boot的文件,并打开application.yml文件,并进行编辑,如下图所示:使用spring boot的程序入口进入该项目:启动项目可得知是spring boot整合cboard未完,此篇章将会接着写。 ...原创 2018-10-29 10:44:01 · 1864 阅读 · 2 评论 -
大数据之hadoop对比spark------数据存储
1.Hadoop的数据都是来自于哪里:答案:磁盘。2.map与reduce可以同时运行吗?答案:不能,由什么决定的,shuffle过程决定的。3.spark为什么比hadoop要快,sprak尽量的避免从磁盘中进行读取,以及配置信息和计算数据,对比这些特性,极大的提高了spark的执行效率,因此,spark的计算能力在一定范围内是比hadoop要优秀一些。存储特点:Bl...原创 2018-10-26 14:18:14 · 423 阅读 · 0 评论 -
大数据组件之spark特点
1.首先针对hadoop的数据存储做个总结:每个块存在三个备份----------------磁盘IO,而且是永久化进行保存,shuffle过程因为需要全局进行排序,中间数据需要溢出持久化写到磁盘中去,这个是十分容易导致磁盘的瓶颈卡顿的,磁盘一边读一边写速度是十分慢的,因此hadoop比较适合做离线处理。2.spark特点:1.快速处理的能力,hadoop的MR把中间件结果存储到磁盘,...原创 2018-10-26 15:10:08 · 559 阅读 · 0 评论 -
大数据组件之spark中job的一系列过程如下
1.Job,大数据的任务基本上都是按照job进行提交的。具体的l流程如下示:(1)第一个过程:didbuild operator DAG:主要是RDD转换为DAG的一个过程,RDD对象,一个RDD连接着一个RDD,第一阶段创建了RDD之后,第二个阶段就是进行spilt graph into stages of tasks:主要是完成finalStage的创建以及和Stage的划分。...原创 2018-10-26 15:34:26 · 648 阅读 · 0 评论 -
hadoop源码环境搭建,
1.使用的IDE为IDEA。(jdk为1.8)2.使用的为Maven3.使用maven来进行hadoop源码环境的导入。maven下载地址如下:http://maven.apache.org/download.cgi进入该界面后如图所示:选择该界面的红色框框处:对该版本进行下载。然后安装到IDEA中去。4.hadoop源码下载网址:http://hadoop...原创 2018-10-26 16:16:44 · 654 阅读 · 0 评论 -
大数据可视化-----
1.交互性:可视化分析是获取数据,单向表示数据,注意结果和提出后续问题的过程,后续问题可能需要向下钻取,向上钻取,筛选,引入新数据或创建数据的其他视图。2.多维性:数据可视化必须足够灵活以便说明各种问题,而数据可以按每一维的值,将其分类,排序,组合和显示。3.可视性:数据可以用图像,曲线,二维图形,三维体和动画来显示,并可对其模式,和相关关系进行可视化分析。未完,待续...原创 2018-10-26 19:08:59 · 2846 阅读 · 0 评论 -
zookeeper深入了解体系结构
1.zookeeper的体系结构图如下所示:(图来自百度)客户端可以连接到每个server,每个server的数据是完全相同的,每个follwer和leader都有连接(如图所示),接受leader的数据更新操作(并将leader数据更新的数据同步到follower中去),至此来实现数据同步和一致性。Server记录事务日志和快照(虚拟机中名词,可理解为将当前计算机所在状态)到持久存储的过...原创 2018-10-24 15:13:13 · 1160 阅读 · 0 评论 -
python通往AI之路基础-----IDE安装
1.首先安装一下python的IDE,具体的步骤如下:安装环境win10,具体步骤如下:进入该网址如下https://www.jetbrains.com/pycharm/显示如图:之后点击download下载的按钮进入如下界面至此进行下载,你可以使用专业版也可以使用社区版。至此软件将会进行下载完成如图:之后将文件夹放到非系统盘的盘符里面去:至此将...原创 2018-10-24 16:44:57 · 307 阅读 · 0 评论 -
大数据分析 -------BI报表工具,supserset安装配置教程
1.将python文件下载下来,python的下载地址如下:https://www.python.org/downloads/release/python-350/下载如下版本:2.superset是需要3.6版本的python将python解压到文件夹中,如图:点击exe文件进行安装执行,增加Add python3.6 to Path.然后点击in...原创 2018-10-27 15:28:05 · 1951 阅读 · 0 评论 -
1.RPC转载集合
转载:深入浅出 RPC - 浅出篇转载:RPC框架与Dubbo完整使用转载:深入浅出 RPC - 深入篇转载:远程调用服务(RPC)和消息队列(Message Queue)对比及其适用/不适用场合分析一、RPC1. RPC是什么RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解...转载 2018-11-13 09:48:00 · 108 阅读 · 0 评论 -
1.scala安装详细步骤
1.scala下载路径。http://www.scala-lang.org/downloads 2.下载下来之后,放在非系统盘文件夹下,如图:一路,next然后进行,更改路径即可: 最后静静等待安装完成即可;安装完成之后,进入cmd命令中敲入scala 然后回车,强调一句,scala仅仅支持JDK1.8以上的,否则也不能安装成功。如图:scal...原创 2018-11-15 14:24:46 · 449 阅读 · 0 评论 -
1.深入浅出了解RPC与RestFul
1.首先了解一下restful API详细讲解如下:http://www.runoob.com/w3cnote/restful-architecture.htmlREST全称是Representational State Transfer,中文意思是表述性状态转移。符合架构原理的前提下,理解和评估以网路为基础的应用软件的架构设计,得到一个功能好,性能好,适宜通信的架构。如果一个架构...转载 2018-11-12 10:22:19 · 141 阅读 · 0 评论 -
1.深入架构Restful对比RPC(二)之RPC
1.分布式应用,云计算以及微服务流行,其根本本质是RPC,以下就是对与RPC技术的一个总结。2.RPC的定义:全称是Remote procedure Call是一种进程间的通信方式,允许程序调用另一个地址空间的过程或函数,而不用程序员编码整个远程调用的细节,表现就是,无论程序员是调用本地的还是远程的函数,本质上编写的调用代码基本相同。3.RPC特性: 《1》概念定义:简单,便于建...原创 2018-11-15 14:26:35 · 5041 阅读 · 2 评论 -
1.hive的安装配置
hive报错记录之:hive是依托于hadoop的,因此需要去先启动hadoop的相关命令:先把hadoop下面的守护进程全部启动:出现了新的错误:出现了新问题,hive的临时目录没有设置好;解决方案如下所示:https://blog.csdn.net/wodedipang_/article/details/72718138出现了新问题:相关的...原创 2019-09-10 20:35:36 · 165 阅读 · 0 评论