机器学习
文章平均质量分 77
DataPulse-辉常努腻
码出未来 let's coding!
展开
-
数据结构-线性表
线性表线性表的定义线性表的抽象数据类型线性表其 顺序存储结构顺序表的定义顺序表的特点顺序表的Java代码实现线性表抽象数据类型的Java接口描述线性表类的实现线性表顺序结构的优缺点线性表的定义定义线性表(List):零个或多个数据元素的有限序列。线性表,顾名思义,是具有像线一样的性质的表。线性表说明首先它是一个序列,也就是说,元素之间是有顺序的若元素存在多个,则第一个元素无前驱,最后一个元素无后继,其他每个元素都有且只有一个前驱和后继。如果一个小朋友去拉两个小原创 2022-05-21 21:22:35 · 874 阅读 · 1 评论 -
数据结构-集成算法-随机森林
数据结构-集成算法-随机森林 [内附spark-ml代码]随机森林集成算法随机森林的相关基础知识随机森林梯度提升树多层感知分类器随机森林集成模型指将基础模型组合成为一个模型。Spark 支持两种主要的集成算法:随机森林和梯度提升树。集成算法集成学习(ensemble learning)是目前非常流行的机器学习策略,基本上所有问题都可以借用其思想来得到效果上的提升。基本出发点就是把算法和各种策略集中在一起,说白了就是一个搞不定大家一起上!集成学习既可以用于分类问题,也可以用于回归问题,在机器学习领原创 2022-05-21 21:10:55 · 1353 阅读 · 0 评论 -
数据结构 - 决策树(分类)
数据结构 - 决策树一决策树的介绍二决策树的构造使用决策树做预测需要以下过程:1.信息熵2.条件熵(Conditional Entropy)与[信息增益](https://so.csdn.net/so/search?q=信息增益&spm=1001.2101.3001.7020)(Information Gain)3.信息增益做特征选择的优缺点4.信息增益比(Infomation Gain Ratio)5.Gini系数一决策树的介绍决策树(decision tree):是一种基本的分类与回归方法,原创 2022-05-21 19:48:36 · 9616 阅读 · 1 评论 -
数据结构基本概念和术语 &时间复杂度&空间复杂度
数据结构数据结构基本概念和术语数据、数据元素和数据项数据:所有被计算机存储、处理的对象。数据元素:数据的基本单位,在程序中作为一个整体而加以考虑和处理。数据元素是运算的基本单位,通常具有完整确定的实际意义。数据元素常常又简称为元素。数据项:一般情况下,数据元素由数据项组成。在数据库中数据项又称为字段或域。它是数 据的不可分割的最小标识单位。总结从宏观上看,数据、数据元素和数据项实际上反映了数据组织的三个层次,数据可由若干个数据元素组成,而数据元素又可由若干个数据项组成。数据结构是相互之原创 2022-05-17 21:11:03 · 277 阅读 · 0 评论 -
树、二叉树、存储结构、二叉数遍历& 数据结构基本概念和术语
文章目录树、二叉树、存储结构、二叉数遍历& 数据结构基本概念和术语数据结构基本概念和术语第四章树的基本概念二叉树的基本概念什么是二叉树二叉树的基本/特殊状态二叉树的存储结构链式存储结构顺序结构存储二叉树的遍历二叉树的遍历方法简介来康康代码实现思路:四种遍历方式的时间和空间复杂度根据遍历序列确定二叉树树、二叉树、存储结构、二叉数遍历& 数据结构基本概念和术语数据结构基本概念和术语数据、数据元素和数据项数据:所有被计算机存储、处理的对象。数据元素:数据的基本单位,在程序中作为一个整原创 2022-05-17 17:06:18 · 455 阅读 · 0 评论 -
spark ml特征转换操作StringIndexer、IndexToString、VectorIndexer、oneHotEncoder、Bucketizer、QuantileDiscretizer
文章目录特征转换方法StringIndexerVectorIndexerIndexToString一、StringIndexer二、IndexToString三、VectorIndexer离散<->连续特征或Label相互转换oneHotEncoderBucketizer输出例子决策树简介运行实例结果展示特征转换方法StringIndexerStringIndexer(字符串-索引变换)是一个估计器,是将字符串列编码为标签索引列。索引位于[0,numLabels),按标签频率排序,频率最高原创 2022-05-16 19:34:05 · 921 阅读 · 0 评论 -
Flink CEP - Flink的复杂事件处理
1 Flink CEP 是什么FlinkCEP - Flink的复杂事件处理。它可以让你在无限事件流中检测出特定的事件模型,有机会掌握数据中重要的那部分2 Flink CEP 特点目标:从有序的简单事件流中发现一些高阶特征输入:一个或多个由简单事件构成的事件流处理:识别简单事件之间的内在联系,多个符合一定规则的简单事件构成复杂事件输出:满足规则的复杂事件3 Flink CEP 应用场景风险控制:对用户异常行为模式进行实时检测,当一个用户发生了不该发生的行为,判定这个用户是不是有违规操作的嫌原创 2022-05-15 14:12:39 · 316 阅读 · 0 评论 -
数据库写入中文乱码问题 编码latin1解决方法
数据库设置alter database shtd_store character set utf8;连接设置jdbc:mysql://master:3306/shtd_store?useSSL=false&characterEncoding=utf-8原创 2022-05-10 10:28:06 · 702 阅读 · 0 评论 -
【Spark Mllib】分类模型——各分类模型使用
一. 数据集这个数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂存在,很快就不流行了)还是长久(长时间流行)。可以查看上面的数据集页面中的简介得知可用的字段。开始四列分别包含 URL 、页面的 ID 、原始的文本内容和分配给页面的类别。接下来 22 列包含各种各样的数值或者类属特征。最后一列为目标值, 1 为长久, 0 为短暂。除去数据集的第一行,然后进行解析:// sed 1d train.tsv > train_noheade原创 2022-05-09 21:27:45 · 509 阅读 · 0 评论 -
准确率(Accuracy) 精确率(Precision) 召回率(Recall)和F1-Measure(精确率和召回率的调和平均值)
准确率(Accuracy) 精确率(Precision) 召回率(Recall)和F1-Measure(精确率和召回率的调和平均值)Spark 构建分类模型学习分类模型的基础知识以及如何在各种应用中使用这些模型。分类通常指将事物分成不同的类别。在分类模型中,我们期望根据一组特征来判断事物的类别,这些特征代表了与物品、对象、事件或上下文相关的属性(变量)。最简单的分类形式是分为两个类别,即二分类。一般将其中一类标记为正类(记为 1),另外一类标记为负类(记为1 或者 0)。下图展示了一个二分类的简原创 2022-04-29 17:12:19 · 1513 阅读 · 0 评论 -
降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段
降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,package dimensionalityreductionimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.mllib.linalgimport org.apache.spark.mllib.linalg.{Matrix, SingularValueD原创 2022-04-28 21:46:20 · 2376 阅读 · 0 评论 -
PrincipalComponentAnalysis 主成分分析
PrincipalComponentAnalysis 主成分分析PrincipalComponentAnalysis 主成分分析1、概念介绍2、PCA变换3、“模型式”的PCA变换实现PrincipalComponentAnalysis 主成分分析1、概念介绍主成分分析(PCA) 是一种对数据进行旋转变换的统计学方法,其本质是在线性空间中进行一个基变换,使得变换后的数据投影在一组新的“坐标轴”上的方差最大化,随后,裁剪掉变换后方差很小的“坐标轴”,剩下的新“坐标轴”即被称为 主成分(Princip原创 2022-04-28 21:27:36 · 560 阅读 · 0 评论 -
十四五规划和2035年远景目标纲要 第五篇 加快数字化发展 建设数字中国
第五篇 加快数字化发展 建设数字中国迎接数字时代,激活数据要素潜能,推进网络强国建设,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革。第十五章 打造数字经济新优势充分发挥海量数据和丰富应用场景优势,促进数字技术与实体经济深度融合,赋能传统产业转型升级,催生新产业新业态新模式,壮大经济发展新引擎。第一节 加强关键数字技术创新应用聚焦高端芯片、操作系统、人工智能关键算法、传感器等关键领域,加快推进基础理论、基础算法、装备材料等研发突破与迭代应用。加强通用处理原创 2022-04-25 19:27:13 · 2860 阅读 · 0 评论 -
随机数生成 Random data generation
Spark ml 随机数生成器RandomRDDs 是一个工具集,用来生成含有随机数的RDD,可以按各种给定的分布模式生成数据集,Random RDDs包下现支持正态分布、泊松分布和均匀分布三种分布方式。RandomRDDs提供随机double RDDS或vector RDDS。package basicstatisticsimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org原创 2022-04-23 21:36:07 · 1897 阅读 · 3 评论 -
相关性Correlations 皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)
相关性CorrelationsCorrelations,相关度量,目前Spark支持两种相关性系数:皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)。相关系数是用以反映变量之间相关关系密切程度的统计指标。简单的来说就是相关系数绝对值越大(值越接近1或者-1), 当取值为0表示不相关,取值为(0~-1]表示负相关,取值为(0, 1]表示正相关。Pearson相关系数表达的是两个数值变量的线性相关性, 它一般适用于正态分布。其取值范围是[-1, 1], 当取值为0表示原创 2022-04-22 08:18:37 · 11023 阅读 · 0 评论