![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据分析
do{a++b++}while(a&b)
我和你原本就是两个世界的人,
一直都在不停的向前走。
直到有一天在某一刻相遇,
我们才在彼此的世界里相拥。
然后追寻着各自的梦想,
却又活在我们自己的天空下。
我要和你手牵着手共同的走下去,
就像这跳不出的循环,直到永远。
展开
-
大数据分析(随机森林)
随机森林什么是随机森林spark代码实现 什么是随机森林 随机森林是多个决策树集成算法,树多了也就成了森林,随机森林包含多个决策树来降低过拟合, 那随机2字又该怎么解释呢?? 随机体现在: 每次迭代时,对原始数据进行二次抽样来获得不同的训练数据。 对于每个树节点,考虑不同的随机特征子集来进行分裂。 spark代码实现 spark.ml支持二分类、多分类以及回归的随机森林算法 数据采用https://archive.ics.uci.edu/ml/machine-learning-databas原创 2022-05-19 09:37:28 · 687 阅读 · 0 评论 -
flink时间语义
flink的时间语义Event TimeProcessing TimeIngestion Time Event Time 事件发生的时间,通常在实际应用中,都是来源于数据本身自带的时间字段的,也是我们经常使用的,不过,要想使用, 前提一定要设置水位线,表示当前事件运行进度,不管是否排序还是延迟到达,最后处理 Event Time 将产生完全一致 和确定的结果性 env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime) Process原创 2022-05-06 09:34:05 · 712 阅读 · 0 评论 -
docker之大数据平台搭建
docker搭建hadoop-HA集群docker环境安装安装dockerdocker镜像虚拟网络设置启动和运行容器hadoop-HA搭建配置centos初始化配置hadoop-HA配置 docker环境安装 安装docker 博主使用的是centos7,docker支持centos7和8,其他系统安装参照 https://www.runoob.com/docker/ubuntu-docker-install.html curl -fsSL https://get.docker.com | bash -s原创 2022-05-05 20:34:22 · 1456 阅读 · 0 评论 -
scala中的xml解析
xml解析xml加载xml获取元素xml获取子元素获取所有的元素获取属性获取元素的值 xml加载 XML.loadFile("C:/Users/dkh/Desktop/spark/spark/pom.xml") <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSche原创 2022-05-05 20:01:28 · 348 阅读 · 0 评论 -
大数据分析(降维)
数据降维 1. 降维方法的种类 MLLIB中提供了两种密切相关的降维模型:主成分分析(PCA)和奇异值分解(SVD) (1)主成分分析 主成分分析(PCA) 是一种对数据进行旋转变换的统计学方法,其本质是在线性空间中进行一个基变换,使得 变换后的数据投影在一组新的“坐标轴”上的方差最大化,随后,裁剪掉变换后方差很小的“坐标轴”,剩下的新“坐标 轴”即被称为 主成分(Principal Component) ,它们可以在一个较低维度的子空间中尽可能地表示原有数据的 性质主成分分析被广泛应用在各种原创 2022-04-28 10:58:11 · 588 阅读 · 0 评论