集群、全文检索、大数据(Hadoop)
文章平均质量分 74
张--小涛涛
风一样的小涛涛
展开
-
大数据(078)Spark【Spark 源码分析----划分Stage】
作者:博弈史密斯链接:https://www.jianshu.com/p/9f74e7f5e913来源:简书概要介绍Stage的定义,DAGScheduler划分Stage流程。Stage查看Stage定义Stage中有两个重要属性,rdd和parents,分别记录的是切分处的RDD和父Stage信息,这一点结合我后面的例子更好理解。Stage有两个子类,ShuffleMapStage、ResultStage,两者分别增加了一个重要属性信息,如下stage ..转载 2020-07-15 23:25:18 · 324 阅读 · 0 评论 -
大数据(077)Spark【Spark Streaming之Spark Streaming窗口机制】
一、前言 前面我们所了解的SparkStreaming程序是计算一个时间段内的数据,每个时间段内的数据不重复计算。那么还可能会有一种需求,我们需要每n秒计算出前x秒的数据结果,其中x>n。 这就引入了SparkStreaming的window函数。如下图所示,滑动窗口宽度是3个时间单位,滑动时间是2两个单位。那么SparkStreaming会每隔两个时间单位,计算前三个时间单位数据的计算结果。二、代码示例package com.zjt.spark.st...原创 2020-05-24 23:01:14 · 335 阅读 · 0 评论 -
大数据(076)Spark【Spark Streaming之Spark Streaming接收并处理Kafka数据】
一、启动Kafka 我们之前已经安装过Kafka,现在远程至三台服务器(node1、node2、node3),在每一台服务器上执行下面命令,启动Zookeeper。cd /home/kafka_2.10-0.8.2.1zkServer.sh start 然后按远程至每一台服务器,执行下面命令,启动Kafkacd /home/kafka_2.10-0.8.2.1bin/kafka-server-start.sh config/server.propertie...原创 2020-05-24 16:42:28 · 207 阅读 · 0 评论 -
大数据(075)Spark【Spark Streaming介绍&WorldCount&HdfsWorldCount】
一、Spark Streaming架构 如下图所示,DStream(Discretized Stream)是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark原语操作后的结果数据流。DStream是一个抽象的概念,是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据。在这一个时间间隔内进行RDD计算。二、WorldCount java代码如下:package com.zjt;import java.util.Ar...原创 2020-05-14 21:29:39 · 217 阅读 · 0 评论 -
大数据(074)Spark【Spark on Yarn的HA搭建】
一、前言 我们在第七十节的时候,已经搭建起了Spark On Yarn,现在我们基于此再搭建Spark的HA。二、步骤2.1、修改每台服务器的配置文件/home/spark-1.3.1-bin-hadoop2.4/conf/spark-env.sh 新增如下配置:export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=n...原创 2020-05-08 21:55:39 · 363 阅读 · 0 评论 -
大数据(073)Kafka【Kafka环境搭建】
一、上传Kafka安装包至环境 我这里给node1至node3三台服务器的/home下上传了安装包二、在每一个服务器上执行下方命令,解压kafka安装包cd /home/unzip kafka_2.10-0.8.2.1.zip三、给Kafka安装目录下脚本赋予执行权限。 在每一台服务器上执行下面命令cd kafka_2.10-0.8.2...原创 2020-05-06 22:46:18 · 177 阅读 · 0 评论 -
大数据(072)Kafka【Kafka介绍】
一、什么是Kafka Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。其主要应用场景是:日志收集系统和消息系统。二、Kafka架构...原创 2020-05-04 22:57:47 · 206 阅读 · 0 评论 -
大数据(071)Spark【Spark内核_缓存策略】
一、Spark缓存类型 Spark缓存策略类是StorageLevel,其有如下几个变量 StorageLevel有如下几个对缓存策略的定义二、Spark算子 下图是Spark算子列表...原创 2020-04-10 23:18:23 · 237 阅读 · 0 评论 -
大数据(070)Spark【Spark内核_RDD&Spark安装运行】
一、RDD(Resilient Distributed Dataset)弹性分布式数据集 Spark 中最基本的数据抽象是RDD。二、RDD五大特点 • A list of partitions RDD由很多partition构成,在spark中,计算式,有多少partition就对应有多少个task来执行。如果从hdfs文件创建的RDD...原创 2020-03-30 23:53:53 · 216 阅读 · 0 评论 -
大数据(069)Spark【Spark介绍】
一、什么是Spark• Apache Spark is an open source cluster computingsystem that aims to make data analytics fast. Apache Spark是一个专注于快速分析数据的开源集群计算系统。• both fast to run and fast to wrtie. 快速读写。二、Spa...原创 2020-03-30 08:23:06 · 194 阅读 · 0 评论 -
大数据(068)Storm【Storm JAVA开发手册】
一、spout中提供的方法1、open方法 当一个Task被初始化的时候会调用此open方法。一般都会在此方法中对发送Tuple的对象SpoutOutputCollector和配置对象TopologyContext初始化。2、nextTuple方法 这是Spout类中最重要的一个方法。发射一个Tuple到Topology都是通过这个方法来实现的。...原创 2020-03-26 07:30:44 · 235 阅读 · 0 评论 -
大数据(067)Storm【Storm DRPC】
一、什么是DRPC RPC (Remote Procedure Call Protocol)——远程过程调用协议 RPC(Remote Procedure Call)—远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,R...原创 2020-01-29 23:16:31 · 467 阅读 · 0 评论 -
大数据(066)Storm【Storm计算模型】
一、Storm计算模型简介 DAG计算模型,一个阶段接另一个阶段再接另一个阶段,在这个有向无环图里面可以灵活的组合,DAG是由Spout和bolt组合起来的,它们都是节点,边就是stream数据流,数据流里面的数据单元就是Tuple,而grouping呢就是数据流里面的数据如何做分发。二、DAG模型介绍 上图所示为DAG模型图,我们可以看到,每一个水龙...原创 2020-01-28 00:27:47 · 825 阅读 · 0 评论 -
大数据(065)Storm【Storm详细讲解】
一、Storm中各个角色的作用 • Nimbus – 集群管理 – 调度topology • Supervisor – 启停worker • Worker – 一个JVM进程资源分配的单位 ...原创 2020-01-26 23:02:46 · 994 阅读 · 0 评论 -
大数据(064)Storm【Storm安装】
一、安装过程概述 • 部署依赖环境 – Java 6+ – Python 2.6.6+ • 部署zookeeper – 3.4.5+ – ZK为什么要用3.4.5,因为它支持磁盘的快照和namenode的定期删除,避免磁盘被打满 ...原创 2020-01-26 22:07:50 · 223 阅读 · 0 评论 -
大数据(063)Storm【Storm介绍】
一、什么是Storm Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域...原创 2020-01-24 16:44:46 · 673 阅读 · 0 评论 -
大数据(062)Scala【Akka框架】
一、什么是Akka Akka 是一个用 Scala 编写的库,用于简化编写容错的、高可伸缩性的 Java 和 Scala 的 Actor 模型应用。二、Akka特性 1.更加简单的并发策略Simpler Concurrency,通过ActorsSTM & Transactors能够简化编写可靠的并行计算。 2.EDA架构Event-driven Archit...原创 2020-01-01 22:23:33 · 368 阅读 · 0 评论 -
大数据(061)Scala【Scala伴生对象】
一、什么是伴生机制 • 第一点,Scala语言中没有static成员存在,第二,Scala允许以某种 方式去使用static成员 • 这个就是伴生机制,所谓伴生,就是在语言层面上,把static成员和非static成员用不同的表达方式,class和object,但双方具有相同的package和name,但是最终编译器会把他们编译到一起,这是纯粹从语法层面上的约定。通过javap可...原创 2020-01-01 18:09:09 · 163 阅读 · 0 评论 -
大数据(060)Scala【Scala相关资源&基础语法】
一、下载资源 1、Scala 我们使用Scala2.10.4来学习Scala,下载链接如下。本站下载资源链接点我 http://www.scala-lang.org/download/2.10.4.html 2、Scala开发工具 Scala开发工具有Eclip...原创 2019-12-23 23:31:27 · 221 阅读 · 0 评论 -
大数据(059)Scala【Scala介绍】
一、为啥子学Scala 因为不久的将来药学Spark了,Scala与Spark浑然天成。 – Scala可拓展 – 面向对象 – 函数式编程 – 兼容JAVA – 类库调用 – 互操作 – 语法简洁 – 代码行短 – 类型推断 ...原创 2019-12-23 22:23:50 · 216 阅读 · 0 评论 -
大数据(058)分布式搜索和分析引擎【elasticsearch ik中文分词器安装】
一.下载编译 从地址https://github.com/medcl/elasticsearch-analysis-ik下载elasticsearch中文分词器 这里默认的是master的 但是master的项目需要用gradle编译,这里选择1.8.0版本。而且从下面的介绍可以知道1.8.0正好对应elasticsearch的2.2.0版本 ...原创 2019-12-09 23:32:57 · 160 阅读 · 0 评论 -
大数据(057)分布式搜索和分析引擎【elasticsearch 概念介绍】
Elasticsearch中的核心概念• cluster – 代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点...原创 2019-11-29 07:44:38 · 155 阅读 · 0 评论 -
大数据(056)分布式搜索和分析引擎【elasticsearch使用】
一、前言 前面我们已经介绍了elasticsearch及其插件的安装,本章我们来介绍下哦elasticsearch的使用。二、准备篇之---CURL命令 – 简单认为是可以在命令行下访问url的一个工具 – curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求。 – ...原创 2019-11-17 00:04:27 · 254 阅读 · 0 评论 -
大数据(055)分布式搜索和分析引擎【elasticsearch插件Kibana安装】
一、背景 上一节,我们安装了elasticsearch,并且尝试了elasticsearch的rest风格接口。很容易发现,通过浏览器输入一个URL来查看elasticsearch状态的方式很LOW。 因此,我们需要Kibana插件来对elasticsearch进行管理。二、环境与工具准备java版本要求:最低1.7 Kibana安装包下载地址:htt...原创 2019-10-30 23:22:44 · 207 阅读 · 0 评论 -
大数据(054)分布式搜索和分析引擎【elasticsearch安装】
一、环境与工具准备java版本要求:最低1.7 elasticsearch安装包下载地址:https://www.elastic.co/downloads/二、安装1、将安装包上传至服务器/home/softWare/elasticsearch目录下2、 执行下方命令解压安装包cd /home/softWare/elasticsearch/tar -zxvf el...原创 2019-10-12 00:12:19 · 162 阅读 · 0 评论 -
大数据(053)分布式搜索和分析引擎【elasticsearch介绍】
一、介绍Elasticseach• Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。基于RESTful接口。当前GitHub,Wikipedia,ebay等都使用了Elasticseach。二、Elasticseach和Solr对比 全文检索技术 lucene(一) 一个简...原创 2019-10-11 23:04:56 · 349 阅读 · 0 评论 -
大数据(042)机器学习【神经网络】
一、生物学中的神经网络一只猫大约有10亿个神经元,一只老鼠大约有7500万个神经元,一只蟑螂大约有100万个神经元,而人类有140亿个神经元。相比之下,许多人工神经网络包含的神经元要少得多,通常只有几百个,所以我们在短期内创建的人工大脑是没有危险的。二、由生物神经元到人工神经元过去我们在宏观角度模拟生物发明了很多东西,比如模拟鸟发明的飞机,模拟蝙蝠发明的雷达。随着对生物微观的深入研究,...原创 2018-12-26 23:45:41 · 1763 阅读 · 1 评论 -
大数据(041)机器学习【多元线性回归实例】
一、前言 保险公司对个人投保时或根据历史数据生成的模型来计算个人保费,那么本次我们就以这个模型的求解过程为例来实践下多元线性回归。二、数据&简单分析 我们已经获取到了一些数据(模拟数据),文件名为insurance.csv,文件内容如下。 我们可以看出数据中共有六个维度:age(年龄),sex(性别),bmi(肥胖指数),child...原创 2019-10-30 22:49:32 · 4398 阅读 · 6 评论 -
大数据(040)机器学习【线性回归】
一、一元一次线性回归 如果用上述概念去理解线性回归与机器学习的关系还有点抽象,那么下面我们来举一个具体的例子来说明。 历史上美国法社会见的次数很多,失败的次数也很多。基于历史样本,我们希望分析火箭中一个组成(O-Ring)温度对火箭发射成功与否的模型。 因此,我们利用y=ax+b模型。将x置为温度,将y置为火箭发射失败次数。通过历史数据可...原创 2018-08-15 08:24:54 · 1433 阅读 · 0 评论 -
大数据(039)机器学习【机器学习语言---R语言基础语法实践】
本章节提供了两个脚本,包含R语言的基础类型和结构。可以在本地运行学习。1、data_type.R#numeric数值型x <- c(1:10)mode(x)#complex复数类型x <- 100 + 1imode(x)#logical逻辑型x <- c(sample(1:10, 5))x <- x==3mode(x)...原创 2018-08-14 08:05:17 · 164 阅读 · 0 评论 -
大数据(038)机器学习【机器学习语言---R语言小试牛刀】
安装完R语言和RStudio后,我们便可以开始小试牛刀了。一、打开RStudio打开后如下图所示我们现在桌面建文件夹r_workspace,再按下图所示将工作空间切换至桌面r_workspace下二、R数据介绍R语言数据结构(6种):• 向量 R的基本数据结构式向量。向量存储一组有序的值,称为元素 一个向量可以包含任意数量的元素。然而原创 2017-12-18 21:20:43 · 563 阅读 · 0 评论 -
大数据(037)机器学习【机器学习语言---R语言介绍】
特点介绍 • 主要用于统计分析、绘图、数据挖掘 • R内置多种统计学及数字分析功能。R的功能也可以通过安装包(Packages,用户撰写的功能)增强。 • 因为S的血缘,R比其他统计学或数学专用的编程语言有更强的面向对象(面向对象程序设计)功能。其他介绍 • R的另一强项是绘图功能,制图具有印刷的素质,也可加入数学符号。 • 虽然R主要用于原创 2017-12-05 22:48:54 · 546 阅读 · 0 评论 -
大数据(004)Hadoop-HDFS zookeeper的安装
zookeeper安装一、将zookeeper-3.4.6.tar.gz拷贝至linux的home目录中,使用 tar -zxvf 命令将其解压缩二、解压缩后,进入如下目录/home/zookeeper-3.4.6/conf,在此目录下新建zoo.cfg文件,编辑如下配置后保存退出。tickTime=2000dataDir=/home/zookeeperclientPor原创 2017-07-29 17:15:47 · 799 阅读 · 0 评论 -
大数据(044)CDH【CDH介绍】
一、痛点一个产品的出现肯定是为了解决用户的痛点,在大数据领域,我们这些使用Hadoop、Hive、Hbase等的开发者来说就是其用户。如果使用原生的ApacheHadoop,在工作中我总结出了如下痛点(部分):1、集群规模很庞大时搭建Hadoop集群复杂度越来越高,工作量很大2、规模很大的集群下升级Hadoop版本很费时费力3、需要自己保证版本兼容,比如升级Hadoop版本后需要自...原创 2019-01-11 07:54:47 · 4274 阅读 · 0 评论 -
大数据(043)机器学习【贝叶斯分类】
一、概念机器学习算法中,有种依据概率原则进行分类的朴素贝叶斯算法,正如气象学家预测天气一样,朴素贝叶斯算法就是应用先前事件的有关数据来估计未来事件发生的概率。二、理解朴素贝叶斯2.1 一个例子如果我们知道P(spam)[垃圾邮件概率]和P(ham)[非垃圾邮件概率]是相互独立的,分别为20%和80%。其中还有一种邮件是P(Viagra)[含有单词Viagra的邮件]。那么我们是...原创 2019-01-06 22:51:09 · 635 阅读 · 0 评论 -
大数据(045)CDH【Cloudera Manager介绍】
一、介绍• Cloudera Manager是一个管理CDH的端到端的应用。• 作用: – 管理 – 监控 – 诊断 – 集成二、Cloudera Manager初看三、 Cloudera Manager架构从上图可以看出Cloudera Manager是CS架构的。• Server...原创 2019-01-11 20:14:03 · 1140 阅读 · 0 评论 -
大数据(046)CDH【Cloudera Manager安装】
一、说明操作系统:CentOS 6JDK 版本:1.7.0_80所需安装包及版本说明: CDH-5.4.0-1.cdh5.4.0.p0.27-el6.parcel CDH-5.4.0-1.cdh5.4.0.p0.27-el6.parcel.sha manifest.json cloudera-manager-el6-cm5.4...原创 2019-07-31 22:57:11 · 373 阅读 · 0 评论 -
大数据(047)CDH【Cloudera Manager之HUE】
一、HUE是什么• Hue是一个开源的Apache Hadoop UI系统。• 通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。 – 例如操作HDFS上的数据、运行Hive脚本、管理Oozie任务等等。• 是基于Python Web框架Django实现的• 支持任何版本Hadoop二、HUE功能– 基于文件浏览器(Fil...原创 2019-08-07 07:59:04 · 356 阅读 · 0 评论 -
大数据(048)Zookeeper【介绍Zookeeper】
一、什么是Zookeeper(动物园管理员)Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等如上图所示,有5台服务器,其中一台Leader、其余的是Follower。这就是经典的主从架构。二、为什么要用Zookeeper» 大部分分布式应用...原创 2019-08-11 06:57:20 · 224 阅读 · 0 评论 -
大数据(049)Zookeeper【CDH 中Zookeeper初体验】
一、前言 我们之前已经搭建好了CDH,其中Zookeeper已经安装好,先在我们就可以去CDH集群中体验一下Zookeeper。二、体验 1、远程任意一台服务器。 2、进入CDH中Zookeeper安装目录 cd /opt/cloudera/parcels/CDH-5.4.0-1.cdh5.4.0.p0.2...原创 2019-08-17 22:17:23 · 1214 阅读 · 0 评论