![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
从零开始学大数据
文章平均质量分 80
nefu-ljw
这个作者很懒,什么都没留下…
展开
-
基于Flink CDC实时同步PostgreSQL与Tidb【Flink SQL Client模式下亲测可行,详细教程】
只要这个flink作业是正常runnning,那么对source_table的任何修改都会同步到sink_table。注意这种是单向同步,source_table的变动(增/删/改)会同步到sink_table,但反过来sink_table的变动不会影响到source_table(不会触发source_table->sink_table的同步)。原创 2023-08-20 20:38:30 · 2251 阅读 · 0 评论 -
spark 内存管理机制与相关参数调优
执行内存是指用于洗牌(shuffle)、连接、排序和聚合中的计算,而存储内存是指用于在集群中缓存和传播内部数据的内存。在 Spark 中,执行和存储共享一个统一的区域(M)。spark 可以通过jdbc操作关系数据库,但是若是没有分散数据的依据,则将所有数据都读到driver节点上时,这时,强烈建议先看一下表的数据量和集群中对spark的内存设置参数。Spark 1.6 之后引入的统一内存管理机制,与静态内存管理的区别在于存储内存和执行内存共享同一块空间,可以动态占用对方的空闲区域。原创 2023-02-03 15:59:15 · 693 阅读 · 0 评论 -
scala 集合总结(Seq、Map、Set、List、Tuple、Option)
从较高的层次来看 Scala 集合,主要有以下三个类别可供选择:Sequences是元素的顺序集合,可以是索引的(如数组)或线性的(如链表);Maps包含键/值对的集合,类似于Java的Map、Python的dict;Sets是唯一元素的无序集合;所有这些都是基本类型,并且具有用于特定目的的子类型,例如并发、缓存和流式处理。除了这三个主要类别之外,还有其他有用的集合类型,包括ranges, stacks, queues。原创 2023-01-04 14:01:20 · 1470 阅读 · 0 评论 -
spark sql Dataframe 的 union、reduce、reduce(_ union _)
union返回一个新的数据集,其中包含此数据集中的行和另一个数据集中的行的并集。这相当于 SQL 中的 UNION ALL。 要执行 SQL 样式的集合并集(对元素进行重复数据删除),请使用此函数,后跟一个不同的。原创 2023-01-03 18:04:15 · 913 阅读 · 0 评论 -
scala vararg( * 与 _* 的用法)
:_*作为一个整体,告诉编译器你希望将某个参数当作参数序列处理!例如val s = sum(1 to 5:_*)就是将1 to 5当作参数序列处理。在spark sql Column中isin函数的定义是:def isin(list: Any*): Column。函数外部传入:参数序列;函数内定义:vararg。原创 2023-01-03 17:17:00 · 458 阅读 · 0 评论 -
spark sql DataFrame 的 groupBy+agg 与 groupByKey+mapGroups
groupBy 对比 groupByKey;groupByKey + mapGroups / groupBy + agg原创 2023-01-03 17:01:00 · 1749 阅读 · 0 评论 -
从spark WordCount demo中学习算子:map、flatMap、reduceByKey
从spark WordCount demo中学习算子:map、flatMap、reduceByKey;转换与聚合原创 2023-01-03 16:54:06 · 502 阅读 · 0 评论 -
spark sql - Dataset数据类型
Dataset是特定领域对象的强类型集合,可以使用函数或关系操作并行转换。 每个Dataset还有一个无类型的视图,称为DataFrame,它是一个Dataset of Row。DataFrame = Dataset[Row]。Dataset上可用的操作分为转换(transformation)和操作(action)。 转换是产生新数据集的,动作是触发计算并返回结果的。原创 2023-01-03 16:51:26 · 832 阅读 · 0 评论 -
pyspark 大数据机器学习入门【逻辑斯蒂回归分类器 & 决策树分类器】
零、概念DataFrame: 使用Spark SQL中的DataFrame作为数据集,它可以容纳各种数据类型。较之RDD,DataFrame包含了schema 信息,更类似传统数据库中的二维表格。 它被ML Pipeline用来存储源数据。例如,DataFrame中的列可以是存储的文本、特征向量、真实标签和预测的标签等。Transformer: 翻译成转换器,是一种可以将一个DataFrame转换为另一个DataFrame的算法。比如一个模型就是一个Transformer。原创 2021-01-24 13:32:12 · 1208 阅读 · 0 评论 -
Linux安装Spark+pyspark,运行wordCount程序
文章目录一、安装Spark二、安装pyspark三、编写python测试程序(wordCount.py)四、运行wordCount.py程序(本地运行)一、安装Spark1.解压,在/opt目录下准备好spark-2.4.3-bin-hadoop2.7文件(下载的spark版本需要对应hadoop版本)cd /opttar -zxvf spark-2.4.3-bin-hadoop2.7.tgz # 解压原创 2020-09-23 19:49:42 · 2123 阅读 · 0 评论 -
Eclipse maven配置及使用
参考文章:1.https://www.cnblogs.com/tangshengwei/p/6341462.html2.https://blog.csdn.net/qy20115549/article/details/53004779?utm_source=blogxgwz0一、安装配置Maven:1.1 从Apache网站 http://maven.apache.org/ 下载并且解压缩安装Apache Maven。Maven下载地址: http://maven.apache.org/downl原创 2020-05-13 17:51:27 · 413 阅读 · 0 评论 -
大数据开发技术课程报告(搭建Hadoop完全分布式集群&&操作集群)
一、 项目简介和实验环境本项目主要是建立Hadoop完全分布式集群,并进行集群测试和操作。主要内容:配置hadoop完全分布式集群的前期准备、安装过程、配置文件、启动过程、Shell操作、Java API操作。(本文中的一些文件可能带有学号后缀,这是课程报告的要求,实际上不必写后缀)Linux发行版:ubuntu-18.04.4-desktop-amd64JDK版本:jdk1.8.0_144Hadoop版本:hadoop-2.7.2二、 虚拟机的各项准备工作创建三台虚拟机,并完成各项准备原创 2020-04-15 21:39:53 · 9307 阅读 · 1 评论 -
Linux hadoop安装及环境变量配置(hadoop-2.7.2.tar.gz)
这个步骤和配置jdk几乎是一模一样的,只是比配置jdk少了一步。(配置jdk传送门)建议先用sudo su命令切换到root账号,否则之后可能无权限操作 /opt 目录。一、下载和解压先去官网下载压缩包hadoop-2.7.2.tar.gz。下载之后,终端输入 cp hadoop-2.7.2.tar.gz 把这个压缩包复制到opt目录下,然后进入到opt目录,输入 tar -zxvf h...原创 2020-03-14 11:08:40 · 2456 阅读 · 1 评论