数据挖掘几个入门级的算法的总结(优缺点)

监督学习算法是指需要样本空间进行训练后才能作出预测或分类的算法,典型的例子有贝叶斯分类器、决策树和神经网络


非监督学习算法的代表有聚类算法和特征矩阵


可以从以下几个方面来比较算法:

1.支持增量式训练:在收录新的数据后能自行调整,修正判断,提高准确率而不需要重新训练

2.特征组合:能够响应特征组合,作出更精确的判断

3.是否是黑盒技术:指算法的中间过程是否易于理解,决策树算法易于理解,而SVM则像天书


按照上述角度比较监督学习算法,在括号内还会备注算法的其他特点:

1.朴素贝叶斯网络:支持,不支持,否(典型用途:垃圾邮件分类)

2.决策树:不支持,支持,否(不擅长对数值结果进行预测,典型用途:用户行为分析)

3.神经网络:不支持,支持,是(难于判断训练的比率,典型用途:根据用户点击结果优化搜索引擎)

4.SVM:不支持,支持,是(适用于高维和大数据样本,难点在于寻找最佳核变换函数,典型用途:社交网站的用户分类)

5.KNN:支持,不支持,否(确定各个特征的比重即缩放因子很复杂,典型用途:预测价格)


非监督学习算法:

1.层次合并:不停地合并相近项,产生树,对于大规模数据可以先抽取部分数据进行层次合并,然后把其余的数据根据距离分配到各个簇中去。

2.K均值聚类:不断修正聚类点的位置直到收敛(聚类点的位置不变),种子的数目和初始位置的选择很重要

3.特征矩阵:利用矩阵的因式分解获取特征和特征的权重


推荐阅读《集体智慧编程》,《Web数据挖掘》


  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
全概率分布可以回答相关领域的任何问题,但随着变量数目的增 加,全概率分布的联合取值空间却可能变得很大。另外,对所有的原 子事实给出概率,对用户来说也非常困难。 若使用Bayes 规则,就可以利用变量之间的条件独立关系简化计 算过程,大大降低所需要声明的条件概率的数目。我们可以用一个叫 作Bayesian 网的数据结构来表示变量之间的依赖关系,并为全概率分 布给出一个简明的表示。 定义(Bayesian 网):Bayesian 网T 是一个三元组(N,A,P),其 中 1. N 是节点集合 2. A 是有向弧集合,与N 组成有限非循环图G =(N,A) 3. P {p(V | ) :V N} v    ,其中 v  代表节点V 的父亲节点集合 Bayesian 网是一个有向非循环图: (1) 网中节点与知识领域的随机变量一一对应(下文中不区分节 点与变量); (2)网中的有向弧表示变量间的因果关系,从节点X 到节点Y 有 向弧的直观含义是X 对Y 有直接的因果影响;影响的强度或者说不确 定性由条件概率表示; (3)每个节点有一个条件概率表,定量描述其所有父亲节点对于 该节点的作用效果。 -2- (4)由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 较容易的 较容易的 较容易的 (给定网络结构相对容易 给定网络结构相对容易 给定网络结构相对容易 给定网络结构相对容易 给定网络结构相对容易 )─ 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 些概率本身容易得多 些概率本身容易得多 些概率本身容易得多 些概率本身容易得多 些概率本身容易得多 (给定准确的条件概率相对 给定准确的条件概率相对 给定准确的条件概率相对 给定准确的条件概率相对 给定准确的条件概率相对 给定准确的条件概率相对 困难) 。一旦 。一旦 。一旦 BayesianBayesianBayesianBayesianBayesian Bayesian网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值