hadoop,spark,scala,flink 大数据分布式系统汇总

weixin_ry5219775

已于 2022-03-15 16:22:20 修改

阅读量822

点赞数

文章标签： spark scala hadoop

于 2021-07-23 17:32:47 首次发布

本文链接：https://blog.csdn.net/kyle1314608/article/details/119026708

版权

20220314

https://shimo.im/docs/YcPW8YY3T6dT86dV/read
尚硅谷大数据文档资料

iceberg相当于对hive的读写,starrocks相当于对mysql的读写

20220306

hadoop或者spark集群启动，只需要在主节点上启动就可以了

20220127

索引，分区和分桶的区别
https://zhidao.baidu.com/question/558461303344423452.html

凡是跟业务应用挂钩的，我们都使用数据库
你可能已经猜到了，MySQL、PostgreSQL、MSSQL 和 Oracle 数据库主要用于处理事务工作负载，而数据仓库用于处理分析工作负载。

https://blog.csdn.net/qq_22473611/article/details/109053952
https://mp.weixin.qq.com/s/yjKUfJiEXVpPgoS0gxppuw
olap大数据分析工具
https://mp.weixin.qq.com/s/VJ9T7GQXjuTz01rBsW4Hdw
olap选型

https://mp.weixin.qq.com/s/eIGJJcDCYvcIMHOiRo7bJg
数据湖

20211126

http://doris.apache.org/master/en/sql-reference/sql-statements/Data%20Definition/CREATE%20TABLE.html#example
doris文档

20211116

trino是连接器,其他hive,iceberg才是具体承载对象

20211015

https://www.shangmayuan.com/a/19094d4b83b941d1adca034d.html
海豚调度使用dolphin

运行实例控制面板无法停止,需要通过进程来杀死

在这里插入图片描述
第一步先上线,上线之后才能设置定时任务,然后再运行
工作流实例看执行到流的哪一步,任务实例看实例的状态情况如何

20210927

在这里插入图片描述

 python ./fate_flow/fate_flow_client.py -f submit_job -d ./examples/federatedrec-examples/hetero_mf/test_hetero_mf_train_job_dsl.json   -c ./examples/federatedrec-examples/hetero_mf/test_hetero_mf_train_job_conf.json

提交任务就是开始在集群运行的起点用命令之前最好好好看看其所有的参数的作用

20210825

rabbitMQ 和kafka 类似

https://blog.csdn.net/qq_45083975/article/details/118422376
Hive与Presto的基本数据类型对照表

在这里插入图片描述
选框架原则

https://zhuanlan.zhihu.com/p/114028503
https://gitee.com/mirrors/FATE

联邦机器学习框架

20210823

1.python site-pakages 里面的pyspark 是为pycharm 提供环境
2.spark里面的pyspark 是环境变量配置 cmd 运行

20210821

spark 大数据都是在副本上操作

spark.debug.maxToStringFields错误

https://blog.csdn.net/qq_21735341/article/details/81238328

https://blog.csdn.net/lixingying567/article/details/77480753
SparkContext的parallelize的参数

https://blog.csdn.net/wplblog/article/details/113885640
获取pyspark rdd里面数据内容

https://blog.csdn.net/hr786250678/article/details/85852150
hive 连接mysql

https://blog.csdn.net/wangxw1803/article/details/86648951
hadoop windows10 正确配置

https://blog.csdn.net/zhouzhiwengang/article/details/88191251
https://blog.csdn.net/qinlan1994/article/details/90524484
hive-site.xml 里面的 driver路径的值不要改
connecturl 用第二个
windows 安装hive

http://archive.apache.org/dist/hive/hive-2.1.1/
hive 镜像下载
https://www.cnblogs.com/pu20065226/p/9835872.html
hive 安装

https://blog.csdn.net/qq_41185868/article/details/109321535
pyarrow

Server version: 8.0.26 MySQL Community Server - GPL
需要的驱动为 mysql-connector-java-8.0.11.jar

hive 中orc存储格式
https://blog.csdn.net/weixin_40106836/article/details/94463475

file:/D:/code12temp/spark_lianxi/foo.csv
大数据系统中路径格式的写法

https://www.infoq.cn/article/in-depth-analysis-of-parquet-column-storage-format
深入分析 Parquet 列式存储格式

20210819

pyspark 最新功能可用配置

在这里插入图片描述
python3.9
pyspark3.1.2

https://codechina.csdn.net/mirrors/cdarlint/winutils?utm_source=csdn_github_accelerator
winutils

https://www.cnblogs.com/jnba/p/10673747.html
hive 语法

https://www.cnblogs.com/zzpblogs/p/9679281.html
hive语法

https://blog.csdn.net/lsshlsw/article/details/49789373
pyspark数据库并行优化读取写入

https://blog.csdn.net/SCS199411/article/details/91630795
pyspark dataframe 转为普通的dataframe 再保存

https://blog.csdn.net/jhr112/article/details/105798381/
https://blog.csdn.net/pycrossover/article/details/102792855
重点
pyspark 第二种读取mysql数据库方式

http://spark.apache.org/docs/latest/api/python/getting_started/index.html
pyspark 官方文档

https://www.cnblogs.com/wonglu/p/7784556.html
pyspark sparksql 文档

在这里插入图片描述

spark,hadoop 的路径都是斜杠而不是反斜杠

https://blog.csdn.net/yingfengfeixiang/article/details/115602692
pyspark dataframe保存为csv

https://blog.csdn.net/luoganttcc/article/details/88791460
pyspark 连接mysql

在这里插入图片描述
mysql-connector-java-5.1.28.jar
spark 2.2.0 需要这个驱动配置
spark sql windows 路径正常配置

https://www.cnblogs.com/wcgstudy/p/10984550.html
spark 连接mysql

https://blog.csdn.net/anshuai_aw1/article/details/85235044
https://blog.csdn.net/qq_23860475/article/details/90748080
pyspark 关联算法

https://plugins.jetbrains.com/plugin/1347-scala/versions
scala 插件
在这里插入图片描述

打开一个已经存在的项目

在这里插入图片描述
增加依赖
点击右边的加号

增加框架支持

itellij idea 环境问题

https://www.jianshu.com/p/b0cf891a1e8d?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation
spark 远程调试

spark-submit --master local D:\project_pycharm\pyspark_project\user_profile_for_2x_v2.py --source=file:///D:/project_pycharm/pyspark_project/sfz.txt -v2.x file:///D://baocun

spark 单机提交路径写法

https://blog.csdn.net/shdxhsq/article/details/106098411
hdfs windows 命令

https://archive.apache.org/dist/spark/
spark下载

20210817

解决HDFS和spark-shell启动的警告：Unable to load native-hadoop library for your platform… using builtin-java
https://blog.csdn.net/someby/article/details/82930140

py4j python 与 java 交互

pyspark:TypeError:an integer is required（got type bytes）解决
https://blog.csdn.net/weixin_43645287/article/details/109776235
把python版本降低到3.7以下

intellij idea 装 scala插件的版本要对应

在这里插入图片描述

在这里插入图片描述
下载慢在官网直接安装

https://blog.csdn.net/cy4ttty/article/details/84321503
hadoop各版本hadoop.dll和winutils.exe下载
bin目录直接覆盖hadoop下面的bin目录

Could not locate Hadoop executable: D:\hadoop331\bin\winutils.exe -see https://wiki.apache.org/hadoo

java安装及其环境变量配置
java8 安装之后其会有一个update 安装之后卸载

主线程java.lang.exceptionininitializerError中的异常安装没有hadoop的spark时(exception in thread main java.lang.exceptionininitializerError When installing spark without hadoop)

降级安装jdk8

Windows环境下执行hadoop命令出现Error: JAVA_HOME is incorrectly set Please update D:\SoftWare\hadoop-2.6.0\conf\hadoop-env.cmd错误的解决办法（图文详解）

重新更改目录安装 java 然后再更改 hadoop-env.cmd
的java路径

https://blog.csdn.net/wen3011/article/details/54907731
这种方式没成功

https://blog.csdn.net/weixin_38507462/article/details/88053071
下载 .tgz的后缀文件
hadoop也要单独安装,sparkwithhadoop

http://www.bubuko.com/infodetail-2637987.html

Windows10 下安装spark单机版

https://www.cnblogs.com/ldy233/p/11475616.html
hadoop 配置java 路径

http://hadoop.apache.org/releases.html
hadoop 下载

https://www.scala-lang.org/download/all.html
scala 下载

hive 把sql 语句转换成 mapreduce

https://blog.csdn.net/healthsun/article/details/90669798
flink mllib

mahout 把算法自动在集群中执行

20210804

flink中收集器和迭代器对应

20210724

=> 等号箭头相当于函数的冒号

偏移量可以理解为索引

在这里插入图片描述
本地模式:想什么时候用就什么时候用
开发环境：用一次就没有了？

配置高可用 (HA)

在这里插入图片描述

在这里插入图片描述
独立模式和yarn 模式
独立只需要spark自己不需要其他第三方框架
yarn模式需要第三方比如hadoop等

在这里插入图片描述

集群模式和客户端模式的区别?
集群模式在控制台看不到结果客户端模式可以看到结果
driver 在集群里面运行的就是集群模型,在集群之外为客户端模式

yarn 属于hadoop

driver 和 executor 是和计算相关的组件
master 和 worker 是和资源相关的组件

driver 通过 application master 和master 交互

executor 是进程
core 是cpu核

有向无环图：依赖关系 A 用到了B 表示 A依赖于B
有环的话就是死循环

在这里插入图片描述

driver 和 executor 都是进程
网络编程就是socket 编程

https://www.zhihu.com/question/62807679/answer/548195113

class 是类
object 是实例

网络中不能传对象,但是可以把对象序列化

普通的java类不能序列化必须 extends（扩展） serializible (抽象接口)
scala 中所有java的接口都是叫特质

scala var 和 val 的区别

RDD 最小的计算单元
多个RDD（各种复杂的操作）联合起来形成完整的计算

数据结构:组织和存储数据的结构

字节流和字符流不同
字节流:一个字节一个字节地读

bufferedinputstream 缓存流批处理

一行一行读是字符流而不是字节流

bufferdreader 是字符流
bufferedinputstream 是字节流

在这里插入图片描述
字节转字符

装饰者设计模式 :在原来的功能上扩展更丰富的功能（包装就相当于参数传入）
真正读取的还是最里层的fileinputstream
RDD 中途不保存数据，IO 要缓存

utf8或者其他编码模式所需的字节数不一样

各种new 只是设计的功能模块
真正触发执行地是 in.readline() 延迟执行的感觉

在这里插入图片描述

在这里插入图片描述
函数中的this 相当于就是调用者自身

弹性就是可变的不是固定的

分片等于分区
子类重写抽象类的方法
先分区后可并行计算

option 可有可没有
executor 在不同的节点中?

driver 做调度

scala中var 和val的区别
Scala有两种变量，val和var。val就不能再赋值了。与之对应的，var可以在它生命周期中被多次赋值。
在这里插入图片描述
相对路径以当前根目录为基准

从文件中构建RDD是一行一行读取是字符类型为string
从内存中构建RDD是一个字符一个字符的读取？如果是列表里面数字则类型为int？

scala 类型推断

通配符可以有可以没有

分布式存储系统路径 HDFS
crc 校验和状态文件

在这里插入图片描述
抽象的方法在特质（trait）当中不能直接运行

真正用的是具体执行的类 ctrl+H

taskscheduleimpl

035 035.尚硅谷_SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定
8分钟左右的追踪可以借鉴学习

0 until numslice 左闭右开

i=> xxx 对i进行右边的操作

weixin_ry5219775

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
hadoop,spark,scala,flink 大数据分布式系统汇总

本地模式:想什么时候用就什么时候用开发环境：用一次就没有了？配置高可用 (HA)独立模式和yarn 模式独立只需要spark自己不需要其他第三方框架yarn模式需要第三方比如hadoop等集群模式和客户端模式的区别?集群模式在控制台看不到结果客户端模式可以看到结果driver 在集群里面运行的就是集群模型,在集群之外为客户端模式yarn 属于hadoopdriver 和 executor 是和计算相关的组件master 和 worker 是和资源相关的组件driver 通过 .
复制链接

扫一扫