大数据学习笔记
文章平均质量分 67
大数据学习笔记。笔记比较老,但又学习价值
WEL测试
WEL,资深软件测试工程师,具有7年以上的软件测试项目经验,长期扎根于一线测试工作,主导并成功完成了多个大型软件测试项目,对于软件测试的各个环节和流程有着全面而深入的了解。 WEL精通软件测试的多个领域,包括系统测试、接口测试、性能测试、自动化测试等,并且在容器化技术和数据测试等前沿方向也有着深入的研究和实践。
展开
-
【云计算原理及实战】初识云计算
云计算被视为“革命性的计算模型”,因为它通过互联网自由流通使超级计算能力成为可能。原创 2023-08-15 17:30:26 · 1617 阅读 · 0 评论 -
【KAFKA】使用星环大数据平台客户端操作kafka的topic
前置条件从星环大数据平台下载kafka的配置文件。如下载的配置为kafka1,把该kafka1放入到/etc目录下并给kafka1目录进行如下赋权:chmod 755 -R /etc/kafka1配置环境变量在对应用户的环境变量中添加如下内容:export KAFKA_OPTS="-Djava.security.auth.login.config=/etc/kafka1/conf/jaas.conf -Djava.security.krb5.conf=/etc/kafka1/conf/krb5.原创 2021-08-24 10:07:19 · 763 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】----Tachyon& BlinkDB&Akka
8. Tachyon Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和MapReduce那样。通过信息继承、内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让不同的Jobs/Queries以及框架都能以内存的速度来访问缓存文件。因此,Tachyon可以减少那些需要经常使用的数据集通过访问磁盘原创 2017-08-17 15:05:08 · 590 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】----Spark R& MLBase
6. Spark R SparkR应该被看着R版Spark的轻量级前端,这意味着它不会拥有想Scala或Java那样广泛的API,但它还是能够在R里运行Spark任务和操作数据。Spark通过RDD类提供Spark API,并且允许用户使用R交互式方式在集群中运行任务。它的其中一项关键特性就是有能力序列化闭包,从而能依次透明地将变量副本传入需要参与运算的Spark集群。Spark原创 2017-08-17 15:00:31 · 579 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】--------开篇
学习笔记封面:前言 作为一个测试人员与开发人员一样,需要不断学习,来开阔眼界、提升实力!从事测试两年多,我也收获不少,从刚开始的手工测试到现在的app、web、接口、性能、python、shell等相关测试技术的掌握、、、都是通过坚持不懈的学习来实现突破的! 由于目前所做工作是数据测试,虽然之前学习过一些大数据相关的知识,如zookeeper、h原创 2017-08-10 09:25:21 · 624 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】----Spark Shark& Spark SQL
4. Spark Shark Shark即Hive on Spark,本质上是通过Hive的HQL解析,Shark在Spark1.0.0由于整合度和性能等原因,已被Spark官方团队停止开发。Shark在实现上是把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,Shark获取HDFS上的数据和文件并放到Spark上运算。Shark的最大原创 2017-08-16 17:22:57 · 1158 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】----Spark Streaming
3. Spark GraphX从官网的说明来看,GraphX是Spark中用于图与图并行计算的API,可以认为是GraphLab和Pregel(图计算模型)在Spark上的重写及优化。跟其他分布式图计算框架相比,GraphX最大的贡献是在Spark之上提供了一栈式数据解决方案,可以方便且高效的完成图计算的一整套流水作业。 GraphX的核心抽象是Resilient Dist原创 2017-08-16 17:17:51 · 502 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】----Spark Streaming
2. Spark Streaming Spark Streaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kafka、Flume、Twitter、Zero和TCP套接字)进行map、reduce、join、window等复杂操作,并将结果保存到外部文件系统、数据库,或应用到实时仪表盘。Spark Streaming示意图如图1-11所示:原创 2017-08-16 17:14:25 · 438 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】----Spark技术生态系统之Spark Core
1.1.3 Spark技术生态系统 Spark生态系统如果1-8所示: Spark Core包含Spark的基本功能,这些功能包括任务调度、内存管理、故障恢复以及存储系统的交互等,其中几个重要的概念:RDD、Stage、DAG。Spark Core的核心思想就是将数据集缓存在内存中,并用Lineage机制来进行容错。1. Spark Cor原创 2017-08-16 17:08:47 · 922 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】----Spark术语
1.1.2 Spark术语 首先要说Spark的运行模式,Spark有很多模式,最简单的就是单机本地模式,还有单机为分布模式,复杂的则运行在集群中,目前能很好地运行在Yarn和Mesos中。Spark还有自带的Standalone模式,对于大多数情况Standalone模式就够了,如果企业已经有Yarn或者Mesos环境,也是很方便部署。Spark的几种运行模式和常见输入如下表1-原创 2017-08-16 17:01:55 · 471 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】---Spark简介
第 1 章 Spark编程模式 Hadoop和Spark联合构成了当今的大数据世界!Hadoop负责数据存储和资源管理,Spark负责一体化、多元化的不同规模的数据计算,而计算正是大数据的精髓之所在!1.1 Spark简介 基于RDD,Spark成功构建了一体化、多元化的大数据处理体系,而且Spark成功使用Spark SQL、Spark Streaming、M原创 2017-08-10 13:40:07 · 2461 阅读 · 0 评论 -
大数据测试挑战&大数据性能测试挑战
大数据测试挑战自动化大数据的自动化测试需要有技术专长的人员。此外,自动化工具未配备处理测试期间出现的意外问题虚拟化它是测试的整体阶段之一。虚拟机延迟会在实时大数据测试中产生时序问题。在大数据中管理图像也是一个麻烦。大数据集需要验证更多的数据,需要更快的速度;需要自动化测试工作;需要能够跨不同平台进行测试。大数据性能测试挑战 多样化的技术:每个子组件属于不同翻译 2017-02-07 17:28:41 · 3207 阅读 · 0 评论 -
大数据测试 VS 传统数据库测试 & 测试环境需求
大数据测试 VS 传统数据库测试类型传统数据库测试大数据测试数据结构化数据结构化数据和非结构化数据测试方法是明确定义和时间测试测试方法需要集中的研发工作(R&D efforts)测试人员可以选择“Sampling”策略进行手动或可以选择“Exhaustive翻译 2017-02-07 17:26:58 · 2739 阅读 · 0 评论 -
架构测试&性能测试
架构测试 Hadoop处理数据量非常大且资源密集的数据。因此,架构测试对于确保大数据项目的成功至关重要。不好活不当的系统设计可能导致性能下降,而且系统还可能无法满足要求。至少,性能和故障转移测试服务应在Hadoop环境中完成。 性能测试包括测试作业完成时间、内存利用率、数据吞吐量和类似的系统指标。虽然故障转移测试服务的动机是验证数据的无缝衔接,以防数据节点出原创 2017-02-07 16:12:38 · 1611 阅读 · 0 评论 -
大数据测试类型&大数据测试步骤
什么是大数据? 大数据是一个大的数据集合,通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建、存储、检索、分析,而且它在数量、多样性、速度方法都很出色。大数据测试类型 测试大数据应用程序更多的是验证其数据处理,而不是测试软件产品的个别功能。当涉及到大数据测试时,性能和功能测试是关键。...翻译 2017-02-07 16:09:13 · 20104 阅读 · 0 评论 -
大数据学习笔记-------------------(30)
第30章 HBASE架构与安装30.1 HBase架构在HBase中,表分割成区域并由区域服务器提供服务。 区域被列族垂直划分为"Stores"。Stores保存为HDFS中的文件。下面显示的是HBase的架构。Note:术语"store"用于区域以解释存储结构 HBase有三个主要组件:客服端库(Client Library)、主服务器(Master S原创 2016-11-02 16:10:29 · 886 阅读 · 0 评论 -
大数据学习笔记-------------------(29)
第五部分HBASE学习该部分,主要对HIV学习笔记进行记录,学习资料翻译自《hbase_tutorial.pdf》,学习网站:www.tutorialspoint.com该部分为10个章节来学习HBASE:Ø 第29章 HBASE介绍Ø 第30章 HBASE架构与安装Ø 第31章 HBASE的SHELLØ 第32章 HBASE普通命令Ø 第33章 HBASE原创 2016-11-02 09:53:07 · 608 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】----Spark速度为何如此快
1.2 Spark大数据处理框架 Spark作为一个通用的大数据计算平台,基于"One Stack to rule them all"的理念成功成为了一体化、多元化的大数据处理平台,轻松应对大数据处理中的实时流计算、SQL交互式查询、机器学习和图计算等,如图1-23所示: 1.2.1 Spark速度为何如此快1. 统一的RDD抽象和操作 S原创 2017-08-17 15:12:35 · 751 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】----RDD:分布式函数式编程
1.2.2 RDD:分布式函数式编程1. RDD的基本概念 在Spark中,一个RDD就是一个分布式对象集合。每个RDD可分为多个分片(partitions)。而分片可以在集群环境的不同节点上计算。RDD兼容Python、Java或者Scala的对象,包括用户定义的类。 用户可以通过两种方式创建RDD:加载外部数据集、在驱动程序中部署对象集合。原创 2017-08-17 15:20:37 · 507 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】---- GraphX:图像计算框架
1.3 Spark子框架解析 基于RDD,Spark在一个技术堆栈上统一各种业务需求的大数据处理场景,能够同时满足SQL、实时流处理、机器学习和图计算等。以下详细介绍Spark上的4大子框架,1.3.1 图像计算框架 Spark GraphX GraphX是Spark中用于图(Web-Graphs 和Social Networks)和图并行计算(PageRank原创 2017-08-25 11:46:21 · 1153 阅读 · 0 评论 -
Hadoop 3.1.1 版本自带基准测试工具使用以及简单操作示例
支持的测试方法 进入hadoop-3.1.1安装目录下的share/Hadoop/mapreduce目录下,本文的安装目录为“/data/hadoop-3.1.1/share/hadoop/mapreduce”执行命令:hadoop jar hadoop-mapreduce-client-jobclient-3.1.1-tests.jar 存在测试有如下:DFSCIO...原创 2018-11-28 18:10:51 · 4943 阅读 · 0 评论 -
【Redhat7.3】在局域网内安装ambari,通过ambari安装大数据平台
由于安装过程比较复杂,在博客中不好组织描述,特把安装过程,以及过程中遇到的问题,整理成一个文档,在下载资源中,如果有问题可以在QQ群@我:https://download.csdn.net/download/henni_719/10669558 以下是文章目录: 前提条件 4修改机器的hostname 5修改主机名 6配置所有节点 8在hos...原创 2018-09-16 08:42:00 · 583 阅读 · 0 评论 -
搭建Hadoop分布式集群------测试Hadoop分布式集群环境
验证hadoop集群构建成功Step_1:通过Master节点格式化集群的文件系统:Step_2:启动hadoop集群:Step_3:停止Hadoop集群:此时出现"no datanode to stop"的错误。出现这个错误的原因是:每次使用“hadoop namenode -format”命令格式化文件系统的时候会出现一个新的namenodeId,而在搭原创 2017-09-01 10:54:56 · 636 阅读 · 0 评论 -
搭建Hadoop分布式集群------修改三台机器的配置文件
该篇文章,继续ssh免密登录之后进行讲解操作!Step_1:修改Master主机的core-site.xml文件:修改前:修改后:Step_2:把修改Master主机的core-site.xml文件复制到Slave1和Slave2的core-site.xml文件中:Step_3:修改Master的mapred-site文件修改前:修改后:原创 2017-09-01 10:17:59 · 2098 阅读 · 0 评论 -
搭建Hadoop分布式集群------SSH无密码验证配置
通过上一篇博文,三台机器可以通过主机名进行相互通信了!这个章节,设置三台机器间通过ssh进行免密登录设置!现在看下在没有配置的情况下,Master通过SSH协议F访问Slave1的情况:需要输入密码才能登录,该密码是用户的开机密码!Step_1:生成私钥和公钥并把Slave1与Slave1的公钥复制到Master上在Master机器上,生成一个公钥(id_rsa.pub)和私钥(i原创 2017-09-01 09:40:57 · 622 阅读 · 2 评论 -
搭建Hadoop分布式集群------前期准备
前期准备:准备机器和设置机器在局域网内在VirtualBox中准备第二、第三台运行Ubuntu系统的机器。第二台与第三台机器,是直接拷贝第一台机器获得,所有配置信息都一样。单机都是伪分布式模式的ubuntu系统的机器。搭建Hadoop分布式集群环境只用三台机器是因为:三台机器是成功配置Hadoop分布式集群运行环境的最小数量,不会因为现有的机器内存或者磁盘空间的局限而导致搭建集原创 2017-09-01 09:00:14 · 608 阅读 · 0 评论 -
配置Hadoop伪分布式模式并运行WordCount示例操作实例演示步骤
该篇博客是基于hadoop单机模式的构建成功的前提下,进行直接操作的,关于 hadoop单机模式的构建可以参考为上一篇博文:http://blog.csdn.net/henni_719/article/details/77718642PS:全程以root的角色进行配置安装第一部分:伪分布式配置伪分布模式主要涉及一下配置信息:(1)修改hado原创 2017-08-31 10:26:30 · 6619 阅读 · 3 评论 -
在ubuntu上构建并配置Spark的IDE开发环境
从网上下载相关的的IDEA的版本,由于我的java版本是1.7的,我下载的版本是IDEAIC_2017.2.4的包,导致后面无法加载jdk!最后我更换为IDEA 13.1.7的!下面的安装步骤截图是IDEAIC_2017.2.4,IDEA13.1.7安装步骤也是一样的:第一部分:安装并配置IDEA第一步:创建安装目录并解压安装包第二步:把解压文件移动到到创建的目录中:原创 2017-09-23 11:55:21 · 1298 阅读 · 0 评论 -
hadoop单机模式的构建、配置与运行测试步骤(ubuntu14.04)
PS:全程以root的角色进行配置安装本篇文章的前期准备工作可以看我之前的博客链接:以root用户身份登录:http://blog.csdn.net/henni_719/article/details/77715021关于文件夹共享:http://blog.csdn.net/henni_719/article/details/77680168参照上面两篇原创 2017-08-30 17:50:10 · 4648 阅读 · 1 评论 -
通过Spark Shell测试Spark集群以cache机制
第一部分 通过Spark的shell测试Spark的工作Step_1:启动spark-shell启动Spark集群,然后启动Spark Shell,进入到目录下:/usr/local/spark/spark-1.4.0-bin-hadoop1/sbin,执行名spark-shell,执行结果如下: Step_2:把Spark安装目录下的"README.md原创 2017-09-15 11:24:08 · 1304 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】-----交互式SQL处理框架Spark SQL
1.3.3 交互式SQL处理框架SparkSQLSpark SQL的四个特点如下:其一,能在Scala代码里写SQL,支持简单的SQL语法检查,能把RDD指为Table存储起来。此外支持部分SQL语法的DSL。对SQL的支持主要依赖Catalyst这个新的查询优化框架,在把SQL解析成逻辑执行计划之后,利用Catalyst包里的一些类和接口,执行一些简单的执行计划优化,最后变成RDD的原创 2017-08-29 15:26:27 · 924 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】-----Spark Streaming案例分析
1.3.2.3 Spark Streaming案例分析 在互联网应用中,网站流量统计作为一种常用的应用模式,需要在不同粒度上对不同数据进行统计,既有实时性需求,又需要涉及聚合、去重、连接等较为复杂的需求统计。传统上,若使用Hadoop MapReduce框架,可以容易地实现较为复杂的统计需求,但实时性却无法保证;若是采用Storm这样的流式框架,实时性可以得到保证,但需求的实现复杂原创 2017-08-29 15:23:46 · 1103 阅读 · 0 评论 -
Spark集群搭建与并验证环境是否搭建成功(三台机器)
在之前hadoop的基础上,进行Spark分布式集群:(1)下载Spark集群需要的基本软件,本篇需要的是:Scala-2.10.4、spark-1.4.0-bin-hadoop(2)安装Spark集群需要的每个软件(3)启动并查看集群的状况(4)t通过spark-shell测试spark工作1.Spark集群需要的软件在前面构建好的hadoop集群的基础上构建spar原创 2017-09-13 17:18:54 · 10189 阅读 · 3 评论 -
大数据Spark企业级实战版【学习笔记】-----Spark Streaming的编程模式
1.3.2.2 Spark Streaming 的编程模式对于Spark Streaming来说,编程就是对于DStream的操作。下面将通过WordCount的例子来说明Spark Streaming中的输入操作、转换操作和输出操作。Ø Spark Streaming初始化:在开始进行DStream操作之前,需要对SparkStreaming进行初始化并生成StreamingConte原创 2017-08-25 16:21:18 · 606 阅读 · 0 评论 -
大数据Spark企业级实战版【学习笔记】-----Spark Streaming 的构架
1.3.2.1 Spark Streaming 的构架 计算流程:Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark,也就是把Spark Streaming的输入数据按照batch size(如1秒)分成一段一段的数据(DiscretizedStream),每一段数据转换成Spark中的RDD,然后将Spark Streaming中对D原创 2017-08-25 16:14:56 · 925 阅读 · 0 评论 -
大数据学习笔记-------------------(28)
第28章 HIVEQLHIVEQL(HIVEQuery Language:Hive查询语言)是一种查询语言,该语言为Hive处理并分析Metastore的结构数据。28.1查询语句(SELECT ...WHERE)SELECT语句被用于检索表中的数据。WHERE子句的工作原理类似于条件。它用条件过滤数据并给出一个有限结果。内置的运算符和函数生成一个满足条件的表达式。SELECT查询语法原创 2016-10-31 11:00:48 · 747 阅读 · 1 评论 -
大数据学习笔记-------------------(20_2)
Step_4:HIVE安装Step_4.1:下载Hive通过:http://apache.petsads.us/hive/hive-2.1.0/,链接下载。记录下载的路径/下载,进入到下载路径下,下载成功会发现:apache-hive-2.1.0-bin.tar.gzStep_4.2:解压并验证Hive压缩问价进入到hive所在路径,执行:tarzxvf apache-原创 2016-10-20 16:27:58 · 713 阅读 · 0 评论 -
大数据学习笔记-------------------(22)
第22章数据库操作22.1 创建数据库 Hive是一个数据库技术,该技术可以定义数据库和表用于分析结构数据。结构化数据分析的主题是以表格方式存储数据,并传递查询以对其进行分析。本章是用来描述如何创建数据库。Hive包含一个默认的数据库(default)。22.1.1创建数据库语句 创建数据库的语句用来在Hive创建数据库。Hive中的数据库是命名空间原创 2016-10-24 11:50:17 · 536 阅读 · 0 评论 -
大数据学习笔记-------------------(21)
第21章 HIVE 数据类型 Hive中所有的数据类型都符合如下四种类型:列类型(Column Type)、文本类型(Literals)、Null类型(Null Values)、复杂类型(Complex Type)。21.1列类型(ColumnType) Hive中被用作列类型的的数据类型如下:整型、字符型、时间戳、日期、浮点型、集合。21.1.1整原创 2016-10-24 09:28:17 · 388 阅读 · 0 评论 -
大数据学习笔记-------------------(17_1)
第17章 KAFKA 生产者与消费者实例17.1 生产者实例用Java客服端来创建一个发布和订阅消息的应用程序。Kafka生产者客服端由如下API组成。17.1.1KafkaProducer API KafkaProducerAPI的核心组成部分是"KafkaProducer"类。KafkaProducer类提供一个选项去连接一个kafka中间件,在这个结构内带有如下方法。原创 2016-10-13 10:50:21 · 946 阅读 · 0 评论