大数据分析_do{a++b++}while(a&b)的博客-CSDN博客

大数据分析

关注

关注数：文章数：5 文章阅读量：3791 文章收藏量：6

作者: do{a++b++}while(a&b)

我和你原本就是两个世界的人，一直都在不停的向前走。直到有一天在某一刻相遇，我们才在彼此的世界里相拥。然后追寻着各自的梦想，却又活在我们自己的天空下。我要和你手牵着手共同的走下去，就像这跳不出的循环，直到永远。

展开

大数据分析（随机森林）

随机森林什么是随机森林spark代码实现什么是随机森林随机森林是多个决策树集成算法，树多了也就成了森林，随机森林包含多个决策树来降低过拟合，那随机2字又该怎么解释呢？？随机体现在：每次迭代时，对原始数据进行二次抽样来获得不同的训练数据。对于每个树节点，考虑不同的随机特征子集来进行分裂。 spark代码实现 spark.ml支持二分类、多分类以及回归的随机森林算法数据采用https://archive.ics.uci.edu/ml/machine-learning-databas

原创 2022-05-19 09:37:28 · 687 阅读 · 0 评论
flink时间语义

flink的时间语义Event TimeProcessing TimeIngestion Time Event Time 事件发生的时间，通常在实际应用中，都是来源于数据本身自带的时间字段的，也是我们经常使用的，不过，要想使用，前提一定要设置水位线，表示当前事件运行进度，不管是否排序还是延迟到达，最后处理 Event Time 将产生完全一致和确定的结果性 env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime) Process

原创 2022-05-06 09:34:05 · 712 阅读 · 0 评论
docker之大数据平台搭建

docker搭建hadoop-HA集群docker环境安装安装dockerdocker镜像虚拟网络设置启动和运行容器hadoop-HA搭建配置centos初始化配置hadoop-HA配置 docker环境安装安装docker 博主使用的是centos7，docker支持centos7和8，其他系统安装参照 https://www.runoob.com/docker/ubuntu-docker-install.html curl -fsSL https://get.docker.com | bash -s

原创 2022-05-05 20:34:22 · 1456 阅读 · 0 评论
scala中的xml解析

xml解析xml加载xml获取元素xml获取子元素获取所有的元素获取属性获取元素的值 xml加载 XML.loadFile("C:/Users/dkh/Desktop/spark/spark/pom.xml") <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSche

原创 2022-05-05 20:01:28 · 348 阅读 · 0 评论
大数据分析（降维）

数据降维 1. 降维方法的种类 MLLIB中提供了两种密切相关的降维模型：主成分分析（PCA）和奇异值分解（SVD）（1）主成分分析主成分分析（PCA）是一种对数据进行旋转变换的统计学方法，其本质是在线性空间中进行一个基变换，使得变换后的数据投影在一组新的“坐标轴”上的方差最大化，随后，裁剪掉变换后方差很小的“坐标轴”，剩下的新“坐标轴”即被称为主成分（Principal Component），它们可以在一个较低维度的子空间中尽可能地表示原有数据的性质主成分分析被广泛应用在各种

原创 2022-04-28 10:58:11 · 588 阅读 · 0 评论

大数据分析

作者: do{a++b++}while(a&b)

大数据分析（随机森林）

flink时间语义

docker之大数据平台搭建

scala中的xml解析

大数据分析（降维）