机器学习算法简述

回归模型
    误差项要满足正态分布,无偏性,共方差性,和独立性。用最小二乘法,来评估参数。也有很多非线性模型。
贝叶斯算法
    贝叶斯数据需要离散,不完整数据,没有输入和输出的概念,节点运算独立。
        EM算法,
聚类分析
        伸缩性,处理不同类型属性的能力,发现任意形状的聚类,输入领域的最小化,处理噪声能力,
        k-means,k-medoids,
        凝聚和分裂两种方法。
        birch主要是数据量大,不能搬到内存中,然后进行的分阶段聚类。简单说就是在已经聚类的情况下,在聚类。
        rock算法,优化了,两个相似临域的点不能算是一个簇的问题。
        cure算法,解决了偏向球形和相似大小的问题,在处理孤立点的时候更健壮。
        基于密度的聚类方式,
        DBSCAN   高密度连通区域聚类。
        STING :统计信息网格聚类 。它的优点, 计算是独立于查询的; 有利于并行处理和增量更新; 效率很高
缺点 如果粒度比较细,处理的代价会显著增加;但是,如果网格结构最低层的粒度太粗,将会降低聚类分析的质量;
在构建一个父亲单元时没有考虑孩子单元和其相邻单元之间的关系,因此,结果簇的形状是 isothetic ,即所有的聚类边界或者是水平的,或者是竖直的,没有对角的边界。
          WaveCluster :利用小波变换聚类
     cobweb统计学方法, 优点在于: 它不需要用户输入参数来确定分类的个数,它可以自动修正划分中类的数目。
缺点是: 首先,它基于这样一个假设:在每个属性上的概率分布是彼此独立的。由于属性间经常是相关的,这个假设并不总是成立。 此外,聚类的概率分布表示使得更新和存储类相当昂贵。因为时间和空间复杂度不只依赖于属性的数目,而且取决于每个属性的值的数目,所以当属性有大量的取值时情况尤其严重
      CLIQUE:维增长子空间聚类方法。 缺点: CLIQUE  算法容易破坏密集区域的边缘,降低最终结果的准确性。 不能自动去除数据集中的孤立点,增加了计算复杂性。 可能会剪掉一些密集单元,对最终的聚类结果质量造成影响。 算法的多步骤都采用近似算法,聚类结果的精确性可能因此降低
      PROCLUS :维归约子空间聚类方法。
      FCM:模糊聚类。
决策树    

优点

    使用者不需要了解很多背景知识,只要训练事例能用属性→结论的方式表达出来,就能用该算法学习;
    决策树模型效率高,对训练集数据量较大的情况较为适合;
    分类模型是树状结构,简单直观,可将到达每个叶结点的路径转换为 IF→THEN 形式的规则,易于理解;
    决策树方法具有较高的分类精确度。 
ID3算法。
C4.5算法。
CART算法。
PUBLIC算法的建树是基于SPRINT方法、对其决策树的剪枝使用的是基于最小编码代价的MDL算法,但MDL原则不能直接应用 
SLIQ (Supervised Learning In Quest) 算法利用 3 种数据结构来构造树,分别是属性表、类表和类直方图
SPRINT 算法是对 SLIQ 算法的改进,其目的有两个: 一是为了能够更好的并行建立决策树,二是为了使得决策树 T 适合更大的数据集
运用REP方法得到的决策树是关于测试数据集的具有最高精度的子树,并且是规模最小的树
CART 剪枝算法
EBP剪枝法是一种应用于C4. 5算法的自下向上的剪枝法,被认为是PEP剪枝法的改进,因为EBP剪枝基于对训练数据集的更加悲观的估计。同PEP剪枝,EBP仅利用训练数据集来构建和剪枝决策树。
关联规则
支持度和置信度。

搜索算法

   该类算法只适合于项集数量相对较小的数据集中的关联规则挖掘。

分层算法(宽度优先算法)

   Apriori 算法是这类算法的典型代表,该算法需扫描数据集的次数等于最大频繁项目集的项目数

深度优先算法     FP-growth

划分算法    划分算法的基本思想是将整个数据集划分成可以存放在内存中进行处理的数据块,以节省访问外存的I/0开销。

抽样算法    如何计算负边界以找回部分遗漏的频繁项集是抽样算法的关键。

有基于 Apriori 算法、 DHP 算法、 DIC 算法的并行算法和基于集群和格遍历的并行算法
CD 算法的基本思想是 : 在每一个处理机上都存储全局的候选项集和频繁项集,每一步计算时利用  Apriori 算法计算出候选集在本地数据上的支持数,然后做一次同步,各处理机交换本地的候选项集的支持数,使得每个处理机的候选项集都得到全局支持数,从而得到全局频繁项集 Lk
DD算法更好地利用了全局的有效存储空间,它在每个处理中存储不同的候选项集,这样在处理机数量增加时,一步可以增加计算的候选项集数量。每个处理机为了计算本地候选项集的全局支持数,必须既要计算候选项目集在本地的支持数,也要计算在所有其它的处理机上的支持数
CaD 算法综合了 DD CD 算法,以弥补它们各自的不足。   DD 算法相似, CaD 算法也是在各节点间分配候选集,但它有选择地对数据库进行分割,使每个节点可以根据本地的数据来处理它的候选集,减少处理器之间对数据和各候选集的依赖,从而减少同步,减少通信量。

增量式关联规则更新技术应具备下列特性:

      (1)规则应可随数据的变化而变化;

      (2)规则更新时应可避免再次处理旧数据,而可利用在先前发现过程中所获得的结果;

      (3)更新维护方法应尽可能独立于具体的发现算法。

粗糙集理论
粗糙集是一个强大的数据分析工具,它能表达和处理不完备信息;能在保留关键信息的前提下对数据进行化简并求得知识的最小表达式;能识别并评估数据之间的依赖关系,揭示出概念的简单模式;能从经验数据中获取易于证实的规则知识。
CEBARKCC 算法是一种比较典型的基于信息熵的属性约简算法。该算法是建立在决策属性集相对于条件属性集的条件熵的基础上的,
神经网络
数据表示方法越明显,冗余数据越少,神经网络就越容易学习;神经网络的神经元节点个数越多,权值的个数越多,则它的训练时间就越长,而且神经网络的泛化能力就越差。

按五大个原则对神经网络进行归类:

按照网络的拓扑结构区分,有前向网络和反馈网络;
按照学习方式区分,则分为有教师学习和无教师学习网络;
按照网络性能区分,则有连续型和离散性网络,随机型和确定型网络;
按照突触性质区分则有一阶线性关联网络和高阶非线性关联网络;
按对生物神经系统的层次模拟区分,则有神经元层次模型,组合式模型,网络层次模型,神经系统层次模型和智能型模型。 

人工神经网络由八个方面的要素组成,分别为:

l 一组处理单元;
l 处理单元的激活状态;
l 每个处理单元的输出函数;
l 处理单元之间的联接模式;
l 传递规则;
l 把处理单元的输入及当前状态结合起来产生激活值的激活规则;
l 通过经验修改联接强度的学习规则;
l 系统运行的环境
BP神经网络。RBF神经网络。hopfiend神经网络。sofm神经网络。
遗传算法

遗传操作包含三个基本遗传算子(Genetic operator)

l 选择 (Selection)

从群体中选择优胜个体,淘汰劣质个体的操作叫选择。选择算子有时又称为再生算子(Reproduction operator)

l 交叉 (Crossover)

所谓交叉又是指把两个父代个体的部分结构加以替换重组而生成新个体的操作。

l 变异 (Mutation)

变异算子的基本内容是对群体中个体串的某些基因座上的基因值作变动。

GA遗传算法编码策略的研究

改进遗传算法主要研究内容包括:

l 分层遗传算法;
l 自适应遗传算法;
l 小生境遗传算法;
l 并行遗传算法;
l 混合遗传算法

l 基于遗传算法的关联规则挖掘
l 基于遗传算法的聚类算法
l 基于遗传算法的分类算法
l 基于模糊遗传算法的建模
支持向量机
One-c1ass SVM算法
RSVM算法
LS-SVM算法
WSVM算法
FSVM
空间数据库挖掘
空间查询及其操作的主要特点有: 空间操作相对复杂和不精确 空间连接( Spatial Join )问题 相同的地理区域经常有不同的视图 一个空间实体可用空间和非空间的属性来描述
空间查询工作
区域查询或范围查询:寻找那些与在查询中指定区域相交的实体。
最邻近查询:寻找与指定实体相邻的实体
距离扫描:寻找与指定的实体相距一段确定距离的实体,这个距离是逐渐增大的。
小提示:所有这些查询都可以用来辅助空间聚类或分类操作。
空间场模型
空间场数据模型的优点是数据结构简单,便于空间法分析与模拟。缺点是不利于表达空间实体,数据量也大。
实体必须符合三个条件:①可被识别,②重要(与问题相关),③可被描述(有特征)。
空间关联分析
空间决策树 空间聚类分析

多媒体数据挖掘的特点

多媒体数据复杂。
多媒体信息语义关联性强。
多媒体信息具有时空相关性。
知识的表达和解释比较困难,多媒体挖掘所得出的模式往往比较隐晦。
图像挖掘

          图像包含着丰富的视觉特性和空间特性。

视频挖掘

          视频包括丰富的内容特性,除了图像具有的视觉特性和空间特性外,还具有时间特性、视频对象特性和运动特性等。

多媒体综合挖掘

          多媒体概念与单媒体的区别在于,它是一个集成的系统概念,媒体之间有联系。

音频挖掘

          音频挖掘通常有两种途径: ①运用语音识别技术将语音识别成文字,将音频挖掘转换成文本挖掘; ②直接从音频中提取声音特征,如音调、韵律等,运用聚类的方法分析声音模式。

图像特征标识的相似检索方法

基于颜色直方图的特征标识
多特征构成的特征标识
基于小波的特征标识
带有区域粒度的小波特征标识
文本挖掘过程一般包括文本准备、特征标引、特征集缩减、知识模式的提取、知识模式的评价、知识模式的输出等过程 .
贝叶斯分类算法。K最近邻居(KNN)算法 ,聚类算法,遗传算法。
漂移学习算法:FLORA 算法,CVFDT,离线C4.5,
流聚类算法:STREAM和CluStream
马尔可夫

决策树:划分原则,是当前哪个属性是最大的,信息增益率。过程比较清晰。最大的优点自学习。
决策树的分类
没有办法划分,或者百分百划分,也可以控制几层,才会停止。防止过度拟合,到某个程度就停止。
对比逻辑回归。
优点:健壮性好。处理非线性。
缺点:类别太多,错误可能会增加比较快。  只是根据一个字段来分类。泛化能力差(容易过度拟合)。
逻辑回归
效果,就用实际数据就好了。
对比决策树:
优点:泛化能力较好(训练集和测试集的准确率差不多),精准高。能精确控制用户数量。
缺点:数据要求高,多重共线问题,不能处理复杂用户特征。
神经网络
支持向量机(用的比较多):核心就是核函数。小样本里面很好,
文本分类,图像分类,生物序列都比较好。
贝叶斯分类
准确率不高,
k近邻:k一定是奇数,错误率很高的。K越大,就越接近贝叶斯的错误率。
数据分析入门

数据来源要客观,这个案例人不仅仅是这几个属性,猪也一样。也不是科学方法。而且结论能解释。小例子没有结论解释性。所以不能算是数据分析,要从业务思维思考问题。不能分析出结果,就和随机结论一样了。数据分析,是严谨的分析过程。
用业务的思维去使用技术,业务为导向。

想清楚做什么,能否做,怎么做。怎么做正确,数据正确,方法正确。结论,有图,有结论。
这里有一个案例
电信公司,给业绩好的部门发展酬金,所以为了这个业绩,为了这个酬金,就有部门自己购买这些卡的现象。用数据挖掘来分析,违规操作。
他有什么样的特征和业务表现,有什么样的数据,有什么指标反映。
发展集中,拨打号码统一,通信行为集中,基站使用少等。
数据来源
调研,人工输入,设备采集,这种直接获取。
文档,网络上这些,就是简介获取。
多选型的题目如何编码:
需要多少的样本量。
抽样方法
概率抽样:完全随机,分层抽样,整群抽样,等距抽样,
非概率抽样:依靠研究人员的经验。
中心极限定理。样本均值的方差等于总体方差的1/N.
点估计。就是用样本的统计量对总体的未知参数的估计。最小二乘,贝叶斯等。
区间估计。估计区间,置信度和置信限。
样本的代表性。就是抽样的方法选择。
标准差,表示差异度。

正态分布的面积比例。
样本容量大小怎么确定。(课时7,40分钟位置)。
《数据挖掘学习视频》
7 数据预处理
    精准度,完整度,一致性,合乎时机,可信度,附加价值,可访问性。来评论数据质量。
数据清理:空缺,噪声,识别孤立点。
数据集成:数据立方体。
数据变换:规范化。
数据归约:书籍集变小,还不损失信息。
数据离散化 :
空缺值处理:直接忽略(大量空缺),人工(工作量大),全局变量就是null,平均值,bayesian方法,决策树,机器学习方法推断
噪声 :分箱,聚类,回归和人工。
8 数据集成和变换
模式集成和数据集成。
数据集成的时候,就是多个数据源整合成一个的问题。
实体识别,就是匹配来自不同数据源的实体。比如说,有人用ID有人用NO。来表示客户的标号。但是在合并的时候,意思是一样的。比如说,10美元,也有10人民币。都可能只用10.
也有冗余数据。比如说,一个数据库用年薪,一个数据库用月薪,其实是一个,你却用了2个。
相关性分析有时候可以消除冗余。相关越大,过大就可能是冗余。
冗余:也可能由多个数据库字段表示。比如说月销量和季度销量。
数据变换:平滑是用来处理噪点。汇总,概化就是分层向上汇报比如从村---镇,可以减少数据。规范化,归一化。要不然就是从-1到1.统一到一个合适的空间。方便计算。
数据归约:目的就是减少挖掘时间。缩小海量数据就是数据归约,但是不能减少信息量。数据立方体就会数据金字塔是一样的。 维度归约(不相干属性),数据压缩(算法压缩),数值归约,离散化。但是要求归约的时间不能太长。
维归约:较少属性和维度,启发式方法,逐步向前选择,逐步向后删除,判定归纳树。
比如:逐步向前选择,由空属性集,每次添加一个最好的属性进来。
数据压缩:小波变换和主成分分析。
数值归约:通过线性回归,多元回归,直方图,聚类,选样减少数据量。比如说,数据是5,10,15这样类型的数据,就可以改变为1,2,3这样就较少数据量了。聚类呢?比如说数据1,2,3,3,4,34,37,38,可以这样,01,02,03,03,04,14,17,18前面的一代表30,就可以压缩了。
选样:抽样定理,随机抽取。分成选样。聚类选样。
9 分类数据概念分成
离散化,比如说,数据是1,1.02,9,19,我们可以把1.02就可以变成1.也可以变成段落,比如说,把收入的具体数据,变成年薪10万以内的,超过10万的,15万的。就把具体数据变成很宽的数据。
概念分成,就是通过属性,来寻找更合适的属性,比如说合并。或者生成更合适的属性。减少属性就可以可能减少挖掘时间。
10, 数据挖掘原语
百分之一就已经很具有代表性的。
置信度和支持度有强相关。支持度和置信度都需要有界限。
11, 数据库查询语言
    主要是数据库查询语言DMQL。因为大部分都是在数据库中完成的。所有需要了解这些。
12, 制定数据挖掘任务
13, 面向属性的归纳算法
描述性挖掘和预测性挖掘。
14, 概念描述的属性相关分析
        防止属性的选取不正确,所以需要属性相关分析。模糊理论,粗糙理论。信息增益。
        如果相关性越强,就越没有意义。如果百分百相关,那就说这个属性可以被其他属性推倒出来。
 15, 类比较描述的量化分析规则
        类比较性挖掘,
  16, 概念描述
        度量中心趋势,算数平均数,中位数(不过是最耗用时间的做法),模(频率最高的数据)也很耗时间。中位数(最大值和最小的平均),百分位数是正态分布的90%的区域,就是90%位数,倾斜度。
倾斜度,就是中位数和两个位数叫IQR,如果超过1.5倍的IQR,认为是孤立点。
        盒图, 和股市交易图差不多。
离散度量,方差,
        直方图,分位数图,QQ图,散步图。
        增量挖掘和并行挖掘。
17, 关联规则
        关系数据库,频繁出现模式。比如,适合捆绑销售。
        根据关联规则促销。支持度和置信度。
        apriori算法。
18, apriori 算法与FP树。找出大型数据库的简单的关联规则。
19, 多维关联规则      
             支持度设置,高了,很多有用的信息消失了。如果低了,太多无用的东西都进来了。所以用递减支持度,或者是多支持度自动计算,来对比结果(耗用时间多了)。
            受控层交叉单项过滤策略,是为了搜索合适的支持度。
            冗余多层关联规则,就是父辈和子辈的置信度一样,那就是冗余的。
20, 关联规则的元规则指导挖掘
           关联规则聚类系统,
           强关联规则,有时候你发现强关联规则。比如说,买电影票和看新闻的相关性。数据上相关性很强。可是单项比较,就是买电影票的人或者看新闻的人就是多。其实是无关的。因为最近有大片上映,也有一个大新闻,所以有时候是无相关的,也可能同时发生。
            这里面讲了集中约束方法,避免关联进入死胡同。
21, 分类和预测
        建立模型--用模型分类---
        准确率,速度,健壮,伸缩,可解读。
        判定树归纳。
        停止条件。
22,判定归纳树
         贝叶斯,神经网络,回归一种预测算法,
23, 聚类分析
        伸缩性,不同数据,任意形状,噪声,高纬度,约束,可解释。
        相异度矩阵,来表征差别。
 25,电子商务与数据挖掘
       内存装不下,是大数据的表现。    通过相关性捆绑销售,电子商务网站结构,   
        网络爬虫,搜索引擎就是通过这个收集网站的。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值