落幕7-CSDN博客

原创 Spark面试

文章目录Spark面试八股文1. Spark 的运行流程？1. Spark 的运行流程？Spark运行流程具体运行流程如下：1. SparkContext 向资源管理器注册并向资源管理器申请运行 Executor2. 资源管理器分配 Executor，然后资源管理器启动 Executor3. Executor 发送心跳至资源管理器4. SparkContext 构建 DAG 有向无环图5. 将 DAG 分解成 Stage（TaskSet）

2021-11-14 10:59:20 234

转载 SparkSQL详细

spark sql 一.概述1 spark历史2 Spark-SQL 概述2.1 特点2.2 作用2.3 Spark SQL架构图 3 Dataset演进历史3.1 RDD3.1.1 优点3.1.2 缺点 3.2 DataFrame3.2.1 优点3.2.2 缺点3.2.3 核心特征 3.3 Dataset3.3.1 区别3.3.2 特点 4 SparkSQL API4.1创建SparkSession4.2 核心API 5 基本操作5.1 Row5.2 Sch..

2021-11-14 09:15:23 1711

原创大数据开发复习Hive篇

文章目录Hive4.1、hive的介绍4.2、hive的架构4.3、Hive 数据模型4.4、常用操作4.4.1、数据库相关4.4.2、内部表外部表4.4.3、创建分区表4.4.4、增删分区4.4.5、hive中的join4.4.6、json解析4.5、常用函数4.5.1、数值函数4.5.2、日期函数4.5.3、条件函数4.5.4、字符串函数4.5.5、类型转换4.6、hive常用的优化4.6.1、 Fetch抓取（Hive可以避免进行MapReduce）4.6.2、本地模式4.6.3、分区表分桶表4.6.

2021-11-13 22:58:00 210

原创 spark广播变量，累加器和SparkShuffle

文章目录广播变量累加器Sparkshufflespark shuffle 演进的历史1、未经优化的HashShuffleManager2、优化后的HashShuffleManager3、SortShuffle4、sortshuffle的bypass运行机制5、Tungsten-Sort Based Shuffle在默认情况下，当 Spark 在集群的多个不同节点的多个任务上并行运行一个函数时，它会把函数中涉及到的每个变量，在每个任务上都生成一个副本。但是, 有时候需要在多个任务之间共享变量，或者在任务(

2021-11-11 22:30:19 846

原创 spark中的checkpoint，持久化和checkpoint的区别

文章目录spark中的checkpoint持久化和Checkpoint的区别spark中的checkpoint 持久化/缓存可以把数据放在内存中，虽然是快速的，但是也是最不可靠的；也可以把数据放在磁盘上，也不是完全可靠的！例如磁盘会损坏等。 Checkpoint的产生就是为了更加可靠的数据持久化，在Checkpoint的时候一般把数据放在在HDFS上，这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全，实现了RDD的容错和高可用。具体用法：sc.setCheckpoint

2021-11-11 20:59:03 601

原创用spark写WordCount(本地运行，提交到yarn运行)

文章目录idea中本地运行提交到集群去运行idea中本地运行本地idea中运行要导入spark，scala依赖 <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11.12</version>

2021-11-10 21:19:29 2029

原创大数据开发复习第五篇（Yarn篇）

3、yarn3.1、介绍yarn 通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度。可以把yarn理解为相当于一个分布式的操作系统平台，而mapreduce等运算程序则相当于运行于操作系统之上的应用程序，Yarn为这些程序提供运算所需的资源（内存、cpu）。3.2、yarn的基本架构 YARN是一个资源管理、任务调度的框架，主要包含三大模块：ResourceManager（RM）、NodeManager（NM）、ApplicationMaster（AM）。 Resource

2021-11-10 19:20:01 1109

原创大数据开发之Spark常用RDD算子

文章目录大数据开发之Spark常用RDD算子mapflatMapmapPartitions和mapPartitionsWithIndexfiltersampleunionjoingroupByKeysort,sortBykeyMapValues常用操作算子大数据开发之Spark常用RDD算子mapmap传入一条数据，返回一条数据map是对RDD中元素逐一进行函数操作映射为另外一个RDD，将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入

2021-11-09 22:09:50 711

原创 hadoop安全模式问题mkdir: Cannot create directory /spark/data/words. Name node is in safe mode.

hadoop启动后安全模式问题问题：正常启动hadoop集群后，准备在hadoop里创建一个目录结果出现如下：[root@master ~]# hdfs dfs -mkdir -p /spark/data/words/mkdir: Cannot create directory /spark/data/words. Name node is in safe mode.原因：hdfs在启动开始时会进入安全模式，这时文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的

2021-11-09 20:05:11 1289

原创 SparkRDD的五大特性

SparkRDD的五大特性一组分片(Partition)/一个分区(Partition)列表，即数据集的基本组成单位。(A list of partitions )对于RDD 来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD 时指定RDD 的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。一个函数会被作用在每一个分区。(A function for computing each split )Spark 中RDD 的

2021-11-08 23:04:50 600

原创 spark2.4.5搭建过程

文章目录spark2.4.5搭建过程1、上传解压，配置环境变量配置bin目录2、修改配置文件 conf3、复制到其它节点4、在主节点执行启动命令spark2.4.5搭建过程1、上传解压，配置环境变量配置bin目录#环境变量配置vim /etc/profile#Sparkexport SPARK_HOME=/usr/local/soft/spark-2.4.5export PATH=$PATH:$SPARK_HOME/bin#生效环境变量source /etc/profile2、

2021-11-08 20:23:13 672

原创大数据开发复习第四篇（MapReduce篇）

文章目录2、MapReduce2.1、介绍MapReduce2.2、会写Wordcount2.3、Combiner2.4、partitioner2.5、MapReduce的执行流程2.6、MapReduce的shuffle阶段2.7、MapReduce优化2.7.1、资源相关参数2.7.2、容错相关参数2.7.3、效率跟稳定性参数2.8、mapreduce程序在yarn上的执行流程2.9、执行MapReduce常见的问题2、MapReduce2.1、介绍MapReduce MapReduce的思想核

2021-11-07 19:10:24 469

原创大数据开发复习第三篇（Hadoop篇）

文章目录1、Hadoop1.1、介绍Hadoop1.2、Hadoop特性优点1.3、hadoop集群中hadoop都需要启动哪些进程，他们的作用分别是什么？1.4、Hadoop主要的配置文件1.5、Hadoop集群重要命令1.6、HDFS的垃圾桶机制1.7、HDFS写数据流程1.8、Hadoop读数据流程1.9、SecondaryNameNode的作用1.10、HDFS的扩容、缩容（面试）1．动态扩容1.1．基础准备1.2．添加datanode1.3．datanode负载均衡服务1.4．添加nodema

2021-11-07 19:06:37 416

原创大数据开发复习第二篇（Linux篇）

Linux文章目录3.4、Linux1、常用操作2、用户管理3、压缩包管理4、查看属性思考1、常用操作查看当前目录下的所有文件及目录ls/ll进入目录cd查看当前目录pwd结束当前进程ctrl+c/ctrl+z新建目录mkdir dir1[ dir2 dir3 dir4] 新建四个dir删除目录rm -rf dir 删除目录下及目录下的所有文件递归创建目录mkdir -p /dir1/dir2/dir3/dir4 递归创建目录

2021-11-06 18:59:18 221

原创大数据开发复习第一篇（MySQL篇）

文章目录3.3、MySQL3.3.1、什么是数据库3.3.2、数据库的分类3.3.3、基本操作3.3.3.1、登录MySQL3.3.3.2、退出MySQL3.3.3.3、输入查询3.3.3.4、创建和使用数据库3.3.3.5、创建表及使用3.3.3.6、表中导入数据3.3.7、数据检索部分3.3.7.1、检索全部数据3.3.7.2、删除表中全部数据3.3.7.3、更新表中特定记录的数据3.3.7.4、查询特定的行3.3.7.4.1、查找生日在1998年以后的特定查询3.3.7.4.2、多条件查询（and |

2021-11-06 18:57:01 1770

原创 idea里用scala连接阿里云RDS的MySQL数据库的API

文章目录idea里用scala连接阿里云RDS的MySQL数据库的API加载驱动用scala代码连接idea里用scala连接阿里云RDS的MySQL数据库的API加载驱动先向pom.xml里添加MySQL依赖<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId>

2021-11-05 05:00:00 357

原创大数据开发复习第一篇（Java篇）

大数据开发复习第一篇(java篇)文章目录大数据开发复习第一篇(java篇)3、基础复习3.1、idea3.11、idea常用快捷键3.12、idea常见问题3.2、Java3.2.1、Java中的基本数据类型3.2.1.1、整形3.2.1.2、浮点型3.2.1.3、字符型3.2.1.4、布尔型3.2.2、String、Stringbulider、StringBuffer3.2.3、ArrayList、LinkedList、Vector3.2.4、数组和链表3.2.5、时间复杂度与空间复杂度**时间复杂度

2021-11-04 19:00:31 512

原创 Scala详细

Scala详细教程转载自：https://blog.csdn.net/wangshun_410/article/details/90759688目录 1.Scala 介绍 1.1 什么是 Scala Scala 1.2 为什么要学 Scala 2.开发环境准备 2.1 ScalaSDK 安装 2.1.1Window 下安装 ScalaSDK 2....

2021-11-04 18:45:31 3356

原创阿里云平台的DataWorks使用教程

文章目录首先登录阿里云平台然后进入产品栏选择并配置工作空间配置引擎选择DataWorks使用首先登录阿里云平台链接在这阿里云（没有账号的自己用支付宝登录就可以了）登录后如下界面然后进入产品栏然后找到大数据一栏点击，然后再找到DataWorks，再点击进去进去后点击立即开通然后点击免费开通基础版（学习用不要钱都懂吧）选择并配置地域：看你个人离那里近就推荐选哪个版本：肯定选基础版（ps其他太贵，你要是富二代当我没说，富二代也不可能来干大数据对吧）然后确认订单就行，然后支付0.0元

2021-11-01 22:40:31 6488 1

原创 Scrapy爬虫项目的创建及案例

文章目录制作 Scrapy 爬虫一共需要4步：首先要运行scrapy肯定需要下载组件创建一个Scrapy项目各组件配置制作 Scrapy 爬虫一共需要4步：新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目明确目标（编写items.py）：明确你想要抓取的目标制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页存储内容（pipelines.py）：设计管道存储爬取内容首先要运行scrapy肯定需要下载组件在Pycharm的ter

2021-10-31 14:30:05 3245 1

原创终端cmd或者在Pycharm的terminal中输入jupyter notebook自动跳转打开Chrome

终端cmd或者在Pycharm的terminal中输入jupyter notebook自动跳转打开Chrome首先在cmd或者terminal中输入jupyter notebook --generate-config找到jupyter_notebook_config.py文件对应的位置然后用记事本打开搜索找到#c.NotebookApp.browser = ‘’然后在#c.NotebookApp.browser = ''下面另起一行添加如下内容import webbrowser webbr

2021-10-28 19:30:52 793

原创 kettle9.1连接hive2时出现User: root is not allowed to impersonate anonymous解决办法

文章目录问题1:User: root is not allowed to impersonate anonymous解决办法：问题2：解决办法：问题1:User: root is not allowed to impersonate anonymous我在用kettle9.1连接虚拟机上hive2.3.8时出现错误1：如下Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteExcepti

2021-10-24 15:20:00 3163

原创 Python3.8.7安装（在windows10上）

Python3.8.7安装（在windows10上）文章目录Python3.8.7安装（在windows10上）首先去官网下载对应的python版本双击后会出现如下界面安装完成出现下图：然后再配置系统环境变量首先去官网下载对应的python版本python官网下载好对应的版本后双击双击后会出现如下界面自定义上面是默认安装，安装在C盘的选择自定义，然后设置自己想放的路径，然后进行安装安装完成出现下图：然后再配置系统环境变量添加PYTHON_HOME后面你放pyt

2021-10-24 01:00:00 2223

原创 Kettle8.2的安装及简单使用

Kettle的安装及简单使用文章目录Kettle的安装及简单使用一、kettle概述二、kettle安装部署和使用Windows下安装案例1：MySQL to MySQL案例2：使用作业执行上述转换，并且额外在表stu2中添加一条数据案例3：将hive表的数据输出到hdfs案例4：读取hdfs文件并将sal大于1000的数据保存到hbase中三、创建资源库1、数据库资源库2、文件资源库四、 Linux下安装使用1、单机2、集群模式案例：读取hive中的emp表，根据id进行排序，并将结果输出到hdfs上

2021-10-23 20:12:45 1565

原创 Flume1.9安装及使用

Flume的安装及使用文章目录Flume的安装及使用Flume的安装1、上传压缩包至虚拟机，并解压2、重命名目录，并配置环境变量3、查看flume版本4、测试flume5、flume的使用Flume的安装1、上传压缩包至虚拟机，并解压点击Flume-1.9.0压缩包下载地址进行下载tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/在环境变量中增加如下命令，可以使用 soft 快速切换到 /usr/local/softali

2021-10-22 20:53:33 948

原创 DataX和FlinkX的安装及使用

文章目录DataX的安装DataX的使用stream2stream编写配置文件stream2stream.json执行同步任务执行结果mysql2mysql编写配置文件mysql2mysql.json执行同步任务mysql2hdfs编写配置文件mysql2hdfs.jsonhbase2mysqlmysql2hbasemysql2Phoenix在Phoenix中创建STUDENT表编写配置文件MySQLToPhoenix.jsonHDFSToHBaseFlinkX的安装与简单使用FlinkX的安装FlinkX

2021-10-22 01:30:00 1357

原创 github打开加载慢的解决办法

我们通过修改本地hosts文件中的内容，让访问github达到加速的目的，不需要安装这个那个的，下面直接进入正题Windows用户去此目录下找到hosts并修改C:\Windows\System32\drivers\etc操作很简单，复制下面的内容到hosts文件中去（直接用记事本打开hosts文件，在最后面另起一行追加下面内容）# GitHub520 Host Start185.199.108.154 github.githubassets.com140.82.

2021-10-21 19:47:24 2455

原创 Hadoop 大厂面试真题总结（一篇就够，详细）

hadoop 中常问的就三块，第一：分布式存储(HDFS)；第二：分布式计算框架 (MapReduce)；第三：资源调度框架(YARN)文章目录1. 请说下 HDFS 读写流程2. HDFS 在读取文件的时候，如果其中一个块突然损坏了怎么办3. HDFS 在上传文件的时候，如果其中一个 DataNode 突然挂掉了怎么办4. NameNode 在启动的时候会做哪些操作5. 对Secondary NameNode 了解吗，它的工作机制是怎样的6. Secondary NameNode 不能恢复 Name.

2021-10-21 02:00:00 771

原创用sqoop把数据从hdfs 导入数据到mysql时出现导入失败报错（export failed）

hdfs 导入数据到mysql时出现导入失败（export failed）原因：–cloumns的列与hdfs中数据的列未对应就比如hdfs中数据是：张三，23，男而你的HDFSToMySQl.conf中的–cloumns设置的是age,gender,name这就不对应，然后就导入失败，需要设置成name,age,gender与之对应还有一种可能就是你的字段长度小了，调整MySQL标的字段长度...

2021-10-20 16:03:48 1747

原创在sqoop中执行mysqlTohive.conf出现 ERROR exec.DDLTask: java.lang.NoSuchMethodError:...../ObjectReader；

ERROR exec.DDLTask: java.lang.NoSuchMethodError: com.fasterxml.jackson.databind.ObjectMapper.readerFor(Ljava/lang/Class;)Lcom/fasterxml/jackson/databind/ObjectReader;原因：sqoop与hive使用的jackson包的版本冲突导致解决办法：将hive的lib目录下的jackson相关jar包拷贝到sqoop的lib目录下先备份好s

2021-10-20 15:59:21 684

原创 Kettle安装以及MySQL千万、亿级数据量迁移方案及性能优化

此作者写的很全，很推荐

2021-10-20 10:10:24 3063 4

原创 Sqoop-1.4.7安装以及使用

SQOOP安装及使用文章目录SQOOP安装及使用SQOOP安装1、上传并解压2、修改文件夹名字3、修改配置文件4、修改环境变量5、添加MySQL连接驱动6、测试准备MySQL数据登录MySQL数据库创建student数据库切换数据库并导入数据另外一种导入数据的方式使用Navicat运行SQL文件导出MySQL数据库importMySQLToHDFS编写脚本，保存为MySQLToHDFS.conf执行脚本注意事项：MySQLToHive编写脚本，并保存为MySQLToHIVE.conf文件在Hive中创建t

2021-10-19 19:23:32 1710

原创 Markdown使用教程（详细）

Markdown教程提到Markdown，很多人首先想到的是简单、Easy等等。的确，Markdown为简单而生。Markdown是由一个叫 JOHN GRUBER 的哥们发明的，它的语法用一篇文章就可以说完。不相信吗？让我们来试试看…1、基础语法1.1、标题Markdown支持6种级别的标题，对应html标签 h1 ~ h6# h1## h2### h3#### h4##### h5###### h6以上标记效果如下：h1h2h3h4h5h6除此之外，Markdo

2021-10-18 19:41:04 10845 1

原创 HBase调优

HBase调优预分区(重点)Rowkey设计(重点)In memoryMax VersionCompact&SplitBulkLoading(重点)预分区(重点)HBase的预分区Rowkey设计(重点)rowkey的设计In memory创建表的时候，可以通过HColumnDescriptor.setInMemory(true)将表放到 RegionServer的缓存中，保证在读取的时候被cache命中。Max Version创建表的时候，可以通过HColumnDescriptor

2021-10-18 19:11:05 556

原创 HBase BulkLoading

HBase BulkLoading优点：如果我们一次性入库hbase巨量数据，处理速度慢不说，还特别占用Region资源，一个比较高效便捷的方法就是使用 “Bulk Loading”方法，即HBase提供的HFileOutputFormat类。它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理，直接生成这种hdfs内存储的数据格式文件，然后上传至合适位置，即完成巨量数据快速入库的办法。配合mapreduce完成，高效便捷，而且不占用region资源，增添负载。限制：

2021-10-17 21:17:55 456

原创 Hbase的RowKey设计

HBase的RowKey设计文章目录HBase的RowKey设计rowkey长度原则rowkey散列原则rowkey唯一原则热点问题加盐哈希反转时间戳反转其他一些建议HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有三种方式：通过get方式，指定rowkey获取唯一一条记录

2021-10-16 20:50:15 588

原创 MapReduce读写HBase

读：package com.liu;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Result;import org.apache.hadoop.hbase.client.Scan;import org.ap.

2021-10-15 15:37:56 690

原创 Hbase的HA（高可用）

ZooKeeper在HBASE高可用中的作用：1.元数据同步2.主备切换HMaster:主HMaster在启动时会在ZooKeeper中/master节点注册备用的HMaster在启动时会在ZooKeeper中backup-masters节点注册HMaster只有一个，当进程挂了，那么会对HBase集群造成影响（单节点故障）解决办法：在另外一台服务器上，例如slave1，在启动一个HMaster启动命令：cd /usr/local/soft/hbase-1.6.0/./bin/

2021-10-15 14:54:29 1194

原创在Hbase1.6.0搭建phoenix-4.16.0并以及Phoenix创建二级索引

PhoenixHbase适合存储大量的对关系运算要求低的NOSQL数据，受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀，一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式，Apache Phoenix即是。Phoenix 基于Hbase给面向业务的开发人员提供了以标准SQL的方式对Hbase进行查询操作，并支持标准SQL中大部分特性:条件运算,分组，分页，等高级查询语法。文章目录Phoenix1、Phoenix

2021-10-14 22:11:40 857

转载 Hbase预分区

背景：HBase默认建表时有一个region，这个region的rowkey是没有边界的，即没有startkey和endkey，在数据写入时，所有数据都会写入这个默认的region，随着数据量的不断增加，此region已经不能承受不断增长的数据量，会进行split，分成2个region。在此过程中，会产生两个问题：1.数据往一个region上写,会有写热点问题。2.region split会消耗宝贵的集群I/O资源。基于此我们可以控制在建表的时候，创建多个空region，并确定每个region的起始和终

2021-10-13 21:21:26 1972

linux_unix_FineBI5_1-CN.sh

score.sql文件

student.sql

hbase-1.6.0-bin.tar.gz

DIANXIN.csv

lianxidata.csv

cource.txt文件学生课程

score.txt文件学生分数

students.txt

空空如也