大数据
源14
这个作者很懒,什么都没留下…
展开
-
[大数据]连载No1之Hadoop概念和伪分布式集群环境搭建
是什么是hadoop?(1) 框架核心设计: HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算(2) 思想 : 分布式,分而治之,并行结算 ,计算向数据移动(3) 模块:分布式文件存储系统HDFS: 提供了高可扩展性,高可靠性,和高吞吐率的数据存储服务 分布式计算框架MapReduce: 计算向数据 移动 分布式资源框里框架YARN: 负责集群资源原创 2017-11-10 20:54:02 · 323 阅读 · 0 评论 -
[大数据]连载No13之Spark Executor的内存管理+sppark调优+数据本地化
本次总结图如下Executor内存管理两种机制1:静态的内存管理分配图(执行 --executor-memory 3G时候),会把executor内容分三大部分2:统一的内存管理分配图特点:Storage内存和shuffle内存可以互相借用,借用比例不能超过各自的50%(执行 --executor-memory 3G时候),会把executor内容分三大部分Spark资源调优两种情况1、搭建集群的...原创 2018-05-24 22:50:08 · 492 阅读 · 0 评论 -
[大数据]连载No12之Spark Shuffle
本次知识点见目录1:Spark计算会发生Shuffle的原因大数据计算每一个key对应得value不一定在一个partition里,因为RDD是分布室的弹性的数据集Shuffle 两阶段1:Shuffle Write上一个stage的每个map task就必须保证将自己处理的当前分区的数据相同的key写入到一个分区文件中,可能就会写入多个不同的的分区文件中2:shuffle Readreduce...原创 2018-03-22 22:39:15 · 156 阅读 · 0 评论 -
[大数据]连载No10之Spark算子计算by java
数据文件示例分别代表(日期 温度 湿度)2017-01-10 14:12:12 34 12017-02-10 14:12:12 37 112017-02-10 11:12:12 12 232017-01-12 04:12:12 35 342017-01-10 14:12:12 35 142017-02-14 14:12:12 4 12017-04-20 14:12:12 9 13...原创 2018-03-09 21:36:31 · 144 阅读 · 0 评论 -
[大数据]连载No9之SparkCore核心篇-资源调度
本次总结见目录stage切割规则1:每一个stage的并行度由task个数决定,task由partition个数决定,partitio由数据大小决定,或者说,stage并行度由最后一个RDD的partiton决定2:每个task的处理逻辑就是每条线贯穿的Stage的所有的partition的处理逻辑,以递归函数的展开式整合起来的见图Spark任务调度流程代码:1)var conf = new S...原创 2018-02-21 13:32:23 · 416 阅读 · 0 评论 -
[大数据]连载No6之Spark(RDD特性,算子)+第一行代码Hello WordCount
本次总结图如下什么是spark?1:快速的通用引擎,处理大规模数据2:开源分布式计算框架,使数据分析更加快速3:不但分析程序快速,写程序也快速Spark RDD(Resilient distributed Dataset) 弹性的分布式数据集5大特性1)有一系类分区集合组成 (a list of partitions)个人理解:计算的数据到达T级别以上时,hadoop会将这些数据切割成许多的blo...原创 2018-02-13 11:09:09 · 390 阅读 · 0 评论 -
[大数据]连载No11之SparkCore之WebUI + 自定义分区器
java中也是有map算子得 mapToPair: 返回的KV格式的rdd map:返回的非KV格式Ui图如下自定义分区器代码如下public static void main(String[] args) { SparkConf conf = new SparkConf() .setAppName("weatherJava") .s...原创 2018-03-14 22:17:25 · 164 阅读 · 0 评论 -
[大数据]连载No8之Spark(集群客户端+控制类算子+广播变量+任务调度)
本次总结图如下修改集群webUI端口两种方式方式一:conf/spark-env.sh 添加SPARK_MASTER_WEBUI_PORT方式二: sbin/start-master.sh 修改8080搭建spark集群客户端必要性:spark集群客户端提交应用时,承担磁盘IO,并且独立于spark集群,,不会影响spark集群某个节点性能差异注意:客户端节点不用在slaves配置,也不会启动任...原创 2018-02-15 18:19:37 · 276 阅读 · 0 评论 -
[大数据]连载No7之Spark集群搭建+提交应用到集群
Spark官网地址:http://spark.apache.org/downloads.html本次总结截图:Spark集群客户端搭建环境说明:master节点: 192.168.0.150(master) 从节点 : 192.168.0.151(node1),192.168.0.152(node2)1:下载spark安装包 spark-1.6.0-bin-...原创 2018-02-13 17:06:24 · 213 阅读 · 0 评论 -
[大数据]连载No4之zookeeper环境搭建
作用概括三点: 一致,有头,数据树特点:一个为分布式应用提供一致性服务的软件,以Fast Paxos算法为基础,其特点决定了它能够用在大型的、分布式的系统当中,是Hadoop和Hbase的重要组件。下载地址: https://archive.apache.org/dist/zookeeper/安装 1) 拷贝并上传到三台机器 scp -r zookeeper-原创 2018-01-01 22:41:43 · 170 阅读 · 0 评论 -
[大数据]连载No3之Hadoop完全分布式环境搭建
步骤如下1:安装虚拟机virtualBox 系统 CentOS-7-x86_64-DVD-1511.isoBridged Adapter模式的网路设置进入系统,登陆 1)设置ip vim /etc/sysconfig/network-scripts/ifcfg-enp原创 2017-12-12 23:24:35 · 285 阅读 · 0 评论 -
[大数据]连载No2之Hadoop文件增删改查API使用
除了命令行之外,还可以通过API操作文件的操作导入 share/hadoop/common/lib 下面jar到工程先打开与 hadoop连接配置,Configuration conf = new Configuration();conf.set("fs.defaultFS", "localhost:9000");FileSystem fs = FileSystem.g原创 2017-11-14 15:43:46 · 279 阅读 · 0 评论 -
[大数据]连载No18 Hbase环境配置
HBase(分布式列式数据库)特点1、高可靠性:利用Hadoop HDFS作为其文件存储系统,多副本,多节点,主从架构2、高性能:google论文bigtable实现,作为海量数据库存储3、面向列、可伸缩4、实时读写的分布式数集群据库5、利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务6、主要...原创 2018-06-26 23:01:26 · 169 阅读 · 0 评论