人工智能算法数据挖掘第一篇

爱学习的菜鸟罢了

已于 2022-04-13 15:05:43 修改

阅读量903

点赞数 3

分类专栏：算法文章标签：算法

于 2021-03-09 15:46:32 首次发布

本文链接：https://blog.csdn.net/qq_34387470/article/details/114585470

版权

#博学谷IT学习技术支持#

SparkMllib分类算法比较及应用场景详解

Binary Classification
Naive Bayes
Linear Regression
Logistical Regression
Random Forrest Classifier
Probabilistic Classifier
GBT Classifier
SVM with SGD
Decision Tree Classifier
Multi Layer Perceptron Classifier
二元分类
朴素贝叶斯
线性回归
后勤回归
随机福雷斯特分类器
概率分类器
GBT分类器
支持向量机与SGD
决策树分类器
多层感知器分类器
SparkMllib回归算法比较及应用场景详解

Generalized Linear Algorithm
Isotonic Regression
Lasso with SGD
Linear Regression
Ridge Regression
Ridge Regression with SGD
Streaming Linear Algorithm
广义线性算法
同位素回归
拉索与SGD
线性回归
山脊回归
岭回归与SGD
流线性算法
SparkMllib聚类算法比较及应用场景详解

K Means
Bisecting K Means
LDA
Power Iteration Clusting
Streaming K Means
Gaussian Mixture

K表示
分裂K的意思
利达
停电了
流K表示
高斯混合

stacking 堆叠上个model结果是下个model的输入

预测算法
时间序列   定价模型
SVR           动态模型
逻辑回归   CLV模型
产品扩展模型   流失预警模型
分量贝叶斯   RFM模型

机器学习
特征提取模型   EM
特征选择模型   Bagging
预测优化模型   AdaBoost

推测算法
SlopeOne    Content-based
Apriori       NBI二部图
FPTree       Heat Diffusion
Hybrid CF   SVD矩阵分解

相似度计算
欧氏距离 pearson相似度
Jaccard相似度 LSH局部敏感哈希
余弦相似度

分类聚类算法
KNN 贝叶斯网络
神经网络 SVM支持向量机

文本挖掘算法
TF-IDF   TestRank
VSM       TopicModel
CRF条件随机场   LDA

classification (分类),regression (回归), clustering (聚类), dimension reduction (降维)

一分类
　　朴素贝叶斯
　　贝叶斯分类法是基于贝叶斯公式(先验概率和后验概率的关系)的统计学分类方法
　　它通过预测一个给定的元组属于一个特定类的概率来进行分类
　　logistic回归
　　logistic回归得出预测值后根据预测值大小进行分类 (通常是二分类)
logistic回归又称logistic回归分析是一种广义的线性回归分析模型常用于数据挖掘疾病自动诊断经济预测等领域例如探讨出轨可能性并根据生活因素预测出轨发生的概率等以出轨分析为例选择两组人群一组是出轨组一组是非出轨组两组人群必定具有不同的体征与生活方式等因此因变量就为是否出轨值为“是”或“否” 自变量就可以包括很多了如年龄性别饮食习惯是否经常去酒吧等自变量既可以是连续的也可以是分类的然后通过logistic回归分析可以得到自变量的权重从而可以大致了解到底哪些因素是出轨的危险因素同时根据该权值可以根据危险因素预测一个人出轨的可能性
　　决策树
　　基于树的结构来进行决策

　　支持向量机SVM Support Vector Machine
　　在训练集的样本空间寻找一个划分超平面将不同类别的样本分开并且最大化分类边界点距离分类平面的距离

二回归
线性回归
用直线进行拟合
逻辑回归
用logistic函数拟合

三聚类
(1)基于分层的聚类
　　AGNES算法
　　先将每个样本看成一个初始聚类簇然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并不断重复直到达到预设的聚类簇的个数
(2)基于划分的聚类
　　k-means算法
　　首先随机从数据中选k个点每个点初始代表每个聚类的中心然后计算剩余各个样本到聚类中心的距离将它赋给最近的簇接着重新计算没一簇的平均值整个过程不断重复如果相邻两次调整没有明显变化说明数据聚类形成的簇收敛
（3）基于密度的聚类
DBSCAN(Density-Based Spatial Clustering of Applications with Noise 基于密度的应用程序空间聚类)聚类算法,是一种基于高密度连通区域的基于密度的聚类算法
与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类.

中文名   聚类算法
外文名   Density-Based Spatial Clustering of Applications with Noise
简称   DBSCAN
性质   有代表性的基于密度的聚类算法
定义   密度相连的点的最大集合
涉及知识   Ε邻域核心对象直接密度可达密度可达密度相连
　　DBSCAN算法
需要两个参数半径(Eps) 以点P为中心的邻域内最少点的数量(MinPts) 若区域内点的数量大于MinPts 就把这些点加入到区域中
(4)基于网络的聚类
(5)基于模型的聚类

四降维
主成分分析法(PCA)  Principal Component Analysis
通过某种线性投影将高维的数据映射到低维的空间中表示并期望在所投影的维度上数据的方差最大以此使用较少的数据维度(主成分) 同时保留住较多的原数据点的特性
下图中PCA会选择2轴

LDA Latent Dirichlet Allocation 主题模型
分类使得
1 同类的数据点尽可能的接近(within class)
2 不同类的数据点尽可能的分开(between class)
上图中LDA会选择1轴

局部线性嵌入(LLE) Locally Linear Embedding
非线性降维算法它能够使降维后的数据较好地保持原有流形结构
使用LLE将三维数据(b)映射到二维(c)之后,映射后的数据仍能保持原有的数据流形(红色的点互相接近,蓝色的也互相接近),说明LLE有效地保持了数据原有的流行结构.
但是LLE在有些情况下也并不适用,如果数据分布在整个封闭的球面上,LLE则不能将它映射到二维空间,且不能保持原有的数据流形.那么我们在处理数据中,首先假设数据不是分布在闭合的球面或者椭球面上

1   寻找每个样本点的k个近邻点;
2   由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;
3   由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值.
(近算法,或者说K最近邻(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一.所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表)

LE拉普拉斯特征映射
拉普拉斯特征映射是一种基于图的降维算法,它希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近,从而在降维后仍能保持原有的数据结构.

Concept Learning System /CLS 概念学习系统
概念学习就是学习把具有共同属性的事物集合在一起并冠以一个名称,把不具有此类属性的事物排除出去.影响概念学习的因素主要有概念的定义性特征;原型;讲授概念的方式;概念间的联系;学生在年龄性别智力动机情绪经验民族语言能力价值观以及使用学习策略上的个体差异等自身的因素.
给定一样例集合以及每个样例是否属于某一概念的标注,怎样自动推出该概念的一般定义,这一问题被称为概念学习(concept learning),或称从样例中逼近布尔值函数.
定义概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数.

1 C4.5
C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进
1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2)在树构造过程中进行剪枝;
3)能够完成对连续属性的离散化处理;
4)能够对不完整数据进行处理.
C4.5算法有如下优点产生的分类规则易于理解,准确率较高.其缺点是在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效.

2 The k-means algorithm即K-Means算法
k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n.它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心.它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小.

3 Support vector machines支持向量机
支持向量机(Support Vector Machine),简称SV机(论文中一般简称SVM).它是一种监

最低0.47元/天解锁文章

爱学习的菜鸟罢了

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
人工智能算法数据挖掘第一篇

SparkMllib分类算法比较及应用场景详解Binary ClassificationNaive BayesLinear RegressionLogistical RegressionRandom Forrest ClassifierProbabilistic ClassifierGBT ClassifierSVM with SGDDecision Tree ClassifierMulti Layer Perceptron Classifier二元分类朴素贝叶斯线性回归后勤.
复制链接

扫一扫

专栏目录