编程有了模型-CSDN博客

原创 HDFS源码二次开发

Hadoop集群运行一年多了，在此过程中收集了很多的性能和稳定性问题，故成立Hadoop源码二次开发项目来进行整体的优化，从而提升Hadoop集群的性能和稳定性。

2021-02-01 18:47:45 587 4

原创大数据面试题-MapReduce&YARN

1、mapreduce流程？ Map阶段： 1：读取输入文件的内容，并解析成键值对（<key, value>）的形式，输入文件中的每一行被解析成一个<key, value>对，每个<key, value>对调用一次map()函数。 2：用户写map()函数，对输入的<key,value>对进行处理，并输出新的<key,...

2019-07-22 10:40:45 735

原创大数据面试题-HDFS

1、什么是大数据? 可以从数据的“5V”特性来进行阐述：一、Volume：数据量大，包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。二、Variety：种类和来源多样化。包括结构化、半结构化和非结构化数据，具体表现为网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高...

2019-07-22 10:40:37 741 1

原创大数据面试题-Linux

1、列举Linux中查看系统性能的工具（区分CPU、内存、磁盘、网络等） iostat监测IO状态 top查看进程 free 查看内存 vmstat 可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率，内存使用，虚拟内存交换情况,IO读写情况 fping查看即时网络 df 查看硬盘 2、Linux默认栈空间有多大？...

2019-07-22 10:40:27 285

原创大数据面试题-JavaSE

1、String 、StringBuffer、StringBuilder 区别及底层实现 1、String是字符串常量， StringBuffer、StringBuilder是字符串变量 2、StringBuffer线程安全(方法用了synchronized修饰)、StringBuilder线程不安全 3、底层都是char[]，String用了final 修饰，后二者初始...

2019-07-22 10:40:10 386

原创 21道海量数据面试题

第一部分：1、一个超大文件（一台机器计算不了），里面存放的都是ip，一行存放一个，求这个文件中哪一个ip出现的次数最多？2、个超大文件，里面存放的都是url，一行存放一个，求两个文件中相同的url？3、一个超级大的文件，里面存放都是url，一行一个，用户给定一个url，如何快速判断url是否在文件中？第二部分：1、给个超过100G的logfile, log中存着IP地址...

2019-07-22 10:39:59 516

原创大数据面试题-Hive

1、udf，udaf，udtf的区别？ Hive中有三种UDF: 1、用户定义函数(user-defined function)UDF； 2、用户定义聚集函数（user-defined aggregate function，UDAF）； 3、用户定义表生成函数（user-defined table-generating function，U...

2019-07-22 10:39:44 307

原创大数据面试题-HBase

1、HBase中rowkey的设计原则? 建议使用String如果不是特殊要求，RowKey最好都是String。方便线上使用Shell查数据、排查错误更容易让数据均匀分布不必考虑存储成本 RowKey的长度尽量短。如果RowKey太长话，第一是，存储开销会增加，影响存储效率；第二是，内存中Rowkey字段过长，内存的利用率会降低，这会降低索引命中率。一般的做法是：时间...

2019-07-22 10:39:29 627

原创 Hive面试题

注：hive-03中的内容Hive面试题一：现有这么一批数据，现要求出：每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数三个字段的意思：用户名，月份，访问次数A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2...

2019-07-22 10:39:16 238

原创 flume-学习日志-20181231

flume知识汇总1、Flume数据采集组件：链接2、FLUME-NG使用总结：有一些常见异常汇总3、flume行业参考：基于Flume的美团日志收集系统(一/二)架构和设计http://www.aboutyun.com/thread-8317-1-1.htmlhttp://www.aboutyun.com/thread-8318-1-1.html4、flume案例案例一：...

2019-01-04 05:53:31 199

原创 Flume 数据采集组件

目录1、数据收集工具/系统产生背景2、专业的数据收集工具2.1、Chukwa2.2、Scribe2.3、Fluentd2.4、Logstash2.5、Apache Flume3、Flume概述3.1、Flume概念3.2、Flume版本介绍3.3、Flume数据源和输出方式4、Flume体系结构/核心组件4.1、概述4.2、Flume三大核心...

2019-01-04 05:44:10 15189 1

原创 SparkCore 核心知识——核心机制

目录1、Spark 的核心概念2、Spark 的运行流程2.1、Spark 的基本运行流程2.2、运行流程图解2.3、SparkContext 初始化2.4、Spark 运行架构特点2.5、DAGScheduler2.6、TaskScheduler2.8、Executor3、Spark 任务执行流程分析3.1、Spark 任务的任务执行流程图解3.2...

2019-01-03 21:01:23 4584

原创 Spark Core 核心知识——RDD

目录1、Spark 核心功能2、Spark 扩展功能3、Spark 核心概念4、Spark 基本架构5、Spark 编程模型6、RDD6.1、RDD 概述6.1.1、什么是 RDD6.1.2、RDD 的属性6.2、创建 RDD6.3、RDD 的编程 API6.3.1、Transformation6.3.2、Action6.3.3、WordCo...

2019-01-03 19:29:08 745

原创 Spark 基础知识

目录1、Spark的产生背景1.1、MapReduce的发展1.1.1、MRv1的缺陷1.1.2、MRv2的缺陷1.1.3、Spark的产生2、Spark概念3、Spark特点3.1、Speed：快速高效3.2、Ease of Use：简洁使用3.3、Generally：全栈式数据处理3.4、Runs Everywhere：兼容4、Spark应用场景...

2019-01-02 20:18:28 1993

原创分布式数据库HBase-学习日志-20181229

HBase知识汇总1、HBase基础知识：https://blog.csdn.net/qq_1018944104/article/details/850137902、HBase高级编程：https://blog.csdn.net/qq_1018944104/article/details/853716293、HBase原理部分：https://blog.csdn.net/qq_1018...

2018-12-31 13:27:06 292

原创 HBase高级知识

目录1、HBase高级编程1.1、协处理器——Coprocessor1.2、协处理加载方式1.3、二级索引（ObserverCoprocessor 案例）2、往HBase插入数据1、HBase高级编程1.1、协处理器——Coprocessor1、起源HBase 作为列族数据库最经常被人诟病的特性包括：无法轻易建立“二级索引”，难以执行求和、计数、排序等操作。比如...

2018-12-31 10:53:57 837

原创 HBase原理部分

目录1、HBase底层原理1.1、系统架构1.2、物理存储1.2.1、整体物理结构1.2.2、StoreFile 和HFile结构1.2.3、MemStore 和 StoreFile1.2.4、HLog（WAL）1.3、寻址机制1.3.1、老的Region寻址方式1.3.2、新的Region寻址方式1.4、读写过程1.4.1、读请求过程1.4.2...

2018-12-31 10:02:28 3061 1

原创 HBase高级编程

目录1、HBase结合MapReduce1.1、HBaseToHDFS1.2、HDFSToHBase2、HBase和MySQL进行数据互导2.1、MySQL数据导入到HBase2.2、HBase数据导入到MySQL3、HBase整合Hive3.1、原理3.2、准备HBase表和数据3.3、Hive端操作3.4、验证1、HBase结合MapReduce...

2018-12-30 10:49:55 1012

1、hbase.hregion.max.filesize应该设置多少合适默认值：256M说明：Maximum HStoreFile size. If any one of a column families' HStoreFiles has grown to exceed this value, the hosting HRegion is split in two.HStoreFile的最大...

2018-12-30 09:28:02 615

原创 HBase性能优化-参数篇

1、配置优化zookeeper.session.timeout默认值：3分钟（180000ms）说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonServer会被Zookeeper从RS集群清单中移除，HMaster收到移除通知后，会对这台server负责的regions重新balance，让其他存活的RegionServer接管.调优：这个tim...

2018-12-30 09:24:51 1138 1

原创 HBase基础知识

目录1、HBase数据库介绍1.1、产生背景1.2、简介1.3、表结构逻辑视图1.3.1、行键（RowKey）1.3.2、列簇（Column Family）1.3.3、时间戳（TimeStamp）1.3.4、单元格（Cell）1.4、HBase应用场景2、HBase集群结构3、HBase和Hive的比较3.1、相同点3.2、不同点4、HBas...

2018-12-30 09:10:32 8484

原创 ZooKeeper-学习日志-20181214

ZooKeeper的知识还是阅读两份课件，把里面的操作都做一遍，理论都理解一遍，总结一遍。ZooKeeper基础知识：https://blog.csdn.net/qq_1018944104/article/details/84797517ZooKeeper原理和应用：https://blog.csdn.net/qq_1018944104/article/details/84798722...

2018-12-28 21:36:19 334

原创 Sqoop-学习日志-20181227

目录1、Sqoop的产生背景2、Sqoop的作用3、Sqoop的本质4、Sqoop的安装5、Sqoop操作练习1、Sqoop的产生背景原来的大量结构化数据的存储是集中式存储（传统的关系型数据库进行存储的），随着数据的不断扩增，传统的关系数据库无法承载这么庞大的数据，这个时候出现了大数据平台hadoop，但是面临一个问题：关系型数据库的数据如何转移到大数据平台上呢？于是S...

2018-12-27 21:03:27 915

原创 Sqoop操作练习

导入：传统关系型数据库---->大数据平台的importmysql------>hadoop--connect 指定关系型数据库链接url mysql:jdbc://hadoop02:3306/--username 指定数据库的用户名--password 指定数据库的密码--table ...

2018-12-27 21:03:02 533

原创 Hive-学习日志-20181226

目录1、Hive产生背景及作用2、Hive的数据组织形式3、Hive的视图4、数据存储5、Hive的DDL 和 DML 操作6、Hive的数据类型7、Hive的函数8、内置函数9、自定义函数：Java语言实现10、json解析11、多字节分隔符12、transform的方式？？？13、Hive的beeline连接14、Hive的Shell...

2018-12-27 20:37:59 1209

原创 Hive的 DDL和 DML操作总结

目录1、Hive的DDL（data define language）1.1、库的操作1.2、表的操作1.2.1、创建表1.2.2、查看表的描述信息1.2.3、查看表的列表1.2.4、表的修改1.2.5、表/分区数据的清空1.2.6、删除表1.2.7、查看详细建表语句2、Hive的DML（data managed language）操作2.1、表的数...

2018-12-27 15:10:40 5660 1

原创 Hive练习题目

----hive 基本操作 1-------------数据自己造 a表：(id int,name string)b表：(id int,job_id int,num int)c表：(job_id int,job string)--建表语句 --加载数据 ---------a表和b表进行链接操作，并观察结果----------------内连接 -- 左连接 lef...

2018-12-27 09:56:55 2225

原创 Scala函数式编程

1、高阶函数和闭包1.1、定义函数scala> val add = (x:Int,y:Int) => {x+y}add: (Int, Int) => Int = <function2>scala> val array = Array(1,2,3,4,5)array: Array[Int] = Array(1, 2, 3, 4, 5)scala...

2018-12-26 06:30:33 253

原创 Spark-学习日志-20181221

目录1、Spark的特点2、Spark 支持的几种部署方案3、Spark的应用场景4、Spark集群安装5、Spark高可用集群6、配置Spark HistoryServer7、Spark的基本使用8、修改Spark的日志级别9、Spark 的 WordCount1、Spark的特点1、快速高效Spark 允许将中间输出和结果存储在内存中，节省了大量...

2018-12-21 20:25:17 493

原创配置 Spark HistoryServer

第一步：cd /home/hadoop/apps/spark-2.3.0-bin-hadoop2.7/confcp spark-defaults.conf.template spark-defaults.conf在文件里面添加如下内容：spark.eventLog.enabled truespark.eventLog.dir hdfs://myha01/ssparklo...

2018-12-21 19:44:33 738

原创 Spark高可用集群安装

1、停止 Spark 集群[hadoop@hadoop02 ~]$ cd /home/hadoop/apps/spark-2.3.0-bin-hadoop2.7[hadoop@hadoop02 ~]$ sbin/stop-all.sh2、配置 ZooKeeper 集群安装、配置并且启动好 ZooKeeper 集群3、修改 SPARK_HOME/conf 目录中的 spark-en...

2018-12-21 19:33:43 494 1

原创 Spark集群安装步骤

Windows本地下载的安装包：spark-2.2.2-bin-hadoop2.7本地启动(windows)：将下载到的软件解压之后，直接启动bin/spark-shell2.cmd。启动成功后如下图测试代码： sc.textFile("D:/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).foreach(...

2018-12-21 19:15:58 290

原创 Scala-学习日志-20181218

学完scala的效果： 1、能熟练使用scala编写spark代码 + 能看懂spark的源码 2、能看懂hadoop和spark的RPC的架构和源码 + 能自己设计和模拟实现一个分布式系统存储 + 计算 + 资源调度能模拟试下一个HDFS，实现一个计算引擎MapReduce/Spark，模拟实现YARN———————————————————...

2018-12-18 22:02:19 182

原创 Scala-学习日志-20181217

1、如何设计一个编程语言找到这些编程语言共同点和不同点。2、为什么学习scala3、环境安装4、入门程序5、变量的定义6、数据的类型7、操作运算符和编程规范8、流程控制9、函数和方法定义、使用、关系（相互转换）10、scala数组11、scala集合——————————Scala 官网：https://www.scala-lang.org/...

2018-12-18 21:44:33 267

原创 Scala面向对象

目录1、Scala类1.1、定义类1.2、定义构造器2、Scala对象2.1、单例对象2.2、伴生对象2.3.、Apply方法2.4、应用程序对象App2.5、抽象类3、Scala继承3.1、扩展类3.2、重写方法（Override和Supper）3.3、类型检查和转换3.4、超类的构造4、特质Trait4.1、特质的定义4.2、...

2018-12-18 21:43:04 248

原创 Hadoop安装

1、版本选择原则：不选太旧的版本，也不选最新的版本。这里选择hadoop2.7.62、集群规划各个角色在集群中各个节点分配3、依赖准备三台虚拟机，都必须有一个普通用户，用户名和密码均统一。这里用户名和密码均设置为：hadoop1）iphadoop01---192.168.191.201hadoop02---192.168.191.202hadoop03---19...

2018-12-18 12:06:11 221

原创集群安装中遇到的问题

1、格式化的时候配置文件错错误日志：Caused by: org.xml.sax.SAXParseException; systemId: file:/home/hadoop/apps/hadoop-2.7.6/etc/hadoop/hdfs-site.xml; lineNumber: 44; columnNumber: 1; XML document structures must st...

2018-12-18 12:03:01 3018 1

原创 Scala编译器安装

Scala安装步骤如下：1、安装JDK2、Windows平台安装Scala访问 Scala 官网 http://www.scala-lang.org/下载 Scala 编译器安装包，目前最新版本是 2.12.x，但是目前大多数的框架都是用 2.10.x 或者 2.11.x 编写开发的，将来我们要基于 Spark-2.3.1进行学习，所以这里推荐 2.11.x 版本，下载 scala-2...

2018-12-17 20:17:38 625

转载位运算符及其应用

2018-12-16 07:22:52 513

转载海量数据解决思路之BitMap

原文：http://zengzhaozheng.blog.51cto.com/8219051/1404108一、概述  本文将讲述Bit-Map算法的相关原理,Bit-Map算法的一些利用场景，例如BitMap解决海量数据寻找重复、判断个别元素是否在海量数据当中等问题.最后说说BitMap的特点已经在各个场景的...

2018-12-16 07:19:34 450

空空如也

空空如也