人工智能算法数据挖掘第一篇

#博学谷IT学习技术支持#

SparkMllib分类算法比较及应用场景详解

Binary Classification
Naive Bayes
Linear Regression
Logistical Regression
Random Forrest Classifier
Probabilistic Classifier
GBT Classifier
SVM with SGD
Decision Tree Classifier
Multi Layer Perceptron Classifier
二元分类
 朴素贝叶斯
线性回归
后勤回归
随机福雷斯特分类器
概率分类器
GBT分类器
支持向量机与SGD
决策树分类器
多层感知器分类器
SparkMllib回归算法比较及应用场景详解

Generalized Linear Algorithm
Isotonic Regression
Lasso with SGD
Linear Regression
Ridge Regression
Ridge Regression with SGD
Streaming Linear Algorithm
广义线性算法
同位素回归
拉索与SGD
线性回归
山脊回归
岭回归与SGD
流线性算法
SparkMllib聚类算法比较及应用场景详解

K Means
Bisecting K Means
LDA
Power Iteration Clusting
Streaming K Means
Gaussian Mixture

K表示
分裂K的意思
利达
停电了
流K表示
高斯混合

stacking 堆叠 上个model结果是下个model的输入

预测算法
时间序列    定价模型
SVR            动态模型
逻辑回归    CLV模型
产品扩展模型    流失预警模型
分量贝叶斯    RFM模型

机器学习
特征提取模型    EM
特征选择模型    Bagging
预测优化模型    AdaBoost

推测算法
SlopeOne     Content-based
Apriori        NBI二部图
FPTree        Heat Diffusion
Hybrid CF    SVD矩阵分解

相似度计算
欧氏距离    pearson相似度
Jaccard相似度    LSH局部敏感哈希
余弦相似度

分类 聚类算法
KNN     贝叶斯网络
神经网络    SVM支持向量机

文本挖掘算法
TF-IDF    TestRank
VSM        TopicModel
CRF条件随机场    LDA

classification (分类),regression (回归), clustering (聚类), dimension reduction (降维)

 
一 分类
  朴素贝叶斯
   贝叶斯分类法是基于贝叶斯公式(先验概率和后验概率的关系)的统计学分类方法 
  它通过预测一个给定的元组属于一个特定类的概率 来进行分类 
  logistic回归
   logistic回归得出预测值后 根据预测值大小进行分类 (通常是二分类)
logistic回归又称logistic回归分析 是一种广义的线性回归分析模型 常用于数据挖掘 疾病自动诊断 经济预测等领域 例如 探讨出轨可能性 并根据生活因素预测出轨发生的概率等 以出轨分析为例 选择两组人群 一组是出轨组 一组是非出轨组 两组人群必定具有不同的体征与生活方式等 因此因变量就为是否出轨 值为“是”或“否” 自变量就可以包括很多了 如年龄 性别 饮食习惯 是否经常去酒吧等 自变量既可以是连续的 也可以是分类的 然后通过logistic回归分析 可以得到自变量的权重 从而可以大致了解到底哪些因素是出轨的危险因素 同时根据该权值可以根据危险因素预测一个人出轨的可能性
  决策树
  基于树的结构来进行决策
 
  支持向量机SVM  Support Vector Machine
   在训练集的样本空间寻找一个划分超平面 将不同类别的样本分开 并且最大化分类边界点距离分类平面的距离 
 
二 回归
线性回归
用直线进行拟合 
逻辑回归
用logistic函数拟合 
 
三 聚类
(1)基于分层的聚类
  AGNES算法 
  先将每个样本看成一个初始聚类簇 然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并 不断重复 直到达到预设的聚类簇的个数 
(2)基于划分的聚类
  k-means算法
  首先随机从数据中选k个点 每个点初始代表每个聚类的中心 然后计算剩余各个样本到聚类中心的距离 将它赋给最近的簇 接着重新计算没一簇的平均值 整个过程不断重复 如果相邻两次调整没有明显变化 说明数据聚类形成的簇收敛 
(3)基于密度的聚类
DBSCAN(Density-Based Spatial Clustering of Applications with Noise 基于密度的应用程序空间聚类)聚类算法,是一种基于高密度连通区域的 基于密度的聚类算法
与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类.

中文名    聚类算法
外文名    Density-Based Spatial Clustering of Applications with Noise 
简    称    DBSCAN
性    质    有代表性的基于密度的聚类算法
定    义    密度相连的点的最大集合
涉及知识    Ε邻域 核心对象 直接密度可达 密度可达 密度相连
  DBSCAN算法
需要两个参数 半径(Eps) 以点P为中心的邻域内最少点的数量(MinPts) 若区域内点的数量大于MinPts 就把这些点加入到区域中 
(4)基于网络的聚类
(5)基于模型的聚类
 
四 降维
主成分分析法(PCA)  Principal Component Analysis
通过某种线性投影 将高维的数据映射到低维的空间中表示 并期望在所投影的维度上数据的方差最大 以此使用较少的数据维度(主成分) 同时保留住较多的原数据点的特性 
下图中PCA会选择2轴 

LDA  Latent Dirichlet Allocation 主题模型
 分类使得 
1 同类的数据点尽可能的接近(within class)
2 不同类的数据点尽可能的分开(between class)
上图中LDA会选择1轴 
 
局部线性嵌入(LLE)  Locally Linear Embedding
 非线性降维算法 它能够使降维后的数据较好地保持原有流形结构 
使用LLE将三维数据(b)映射到二维(c)之后,映射后的数据仍能保持原有的数据流形(红色的点互相接近,蓝色的也互相接近),说明LLE有效地保持了数据原有的流行结构.
但是LLE在有些情况下也并不适用,如果数据分布在整个封闭的球面上,LLE则不能将它映射到二维空间,且不能保持原有的数据流形.那么我们在处理数据中,首先假设数据不是分布在闭合的球面或者椭球面上

1    寻找每个样本点的k个近邻点;
2    由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;
3    由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值.
(近算法,或者说K最近邻(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一.所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表)

LE拉普拉斯特征映射
拉普拉斯特征映射是一种基于图的降维算法,它希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近,从而在降维后仍能保持原有的数据结构.


Concept Learning System /CLS 概念学习系统
概念学习就是学习把具有共同属性的事物集合在一起并冠以一个名称,把不具有此类属性的事物排除出去.影响概念学习的因素主要有 概念的定义性特征;原型;讲授概念的方式;概念间的联系;学生在年龄 性别 智力 动机 情绪 经验 民族 语言能力 价值观以及使用学习策略上的个体差异等自身的因素.
给定一样例集合以及每个样例是否属于某一概念的标注,怎样自动推出该概念的一般定义,这一问题被称为概念学习(concept learning),或称从样例中逼近布尔值函数.
定义 概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数.

1 C4.5
C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.  C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进 
    1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
    2)在树构造过程中进行剪枝;
    3)能够完成对连续属性的离散化处理;
    4)能够对不完整数据进行处理.
C4.5算法有如下优点 产生的分类规则易于理解,准确率较高.其缺点是 在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效. 

2 The k-means algorithm即K-Means算法
k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n.它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心.它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小. 

3 Support vector machines支持向量机
支持向量机(Support Vector Machine),简称SV机(论文中一般简称SVM).它是一种监

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值