数据挖掘

最新推荐文章于 2024-11-01 20:42:15 发布

维正

最新推荐文章于 2024-11-01 20:42:15 发布

阅读量984

点赞数 1

分类专栏：大数据 hadoop 笔记文章标签：数据挖掘算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QiwzDeBLOG/article/details/81591399

版权

大数据同时被 3 个专栏收录

11 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

决策树：

贝叶斯定理：

朴素贝叶斯：

决策树：

ID3：
熵：

Gain大的点选择为分开点

神经网络：

梯度下降法：

BP算法

网络例子：Online Demo

http://neuron.eng.wayne.edu/software.html

http://facstaff.cbu.edu/~pong/ai/hopfield/hopfieldapplet.html

Support Vector Machines：SVM

点到超平面的距离：M = |g(x)| / ||W||

无偏估计的平面，Support Vectors,决定了这个平面移动的范围-->margin,大了可以有更多的容错空间

Linear Support Vector Machines（LSVM）
margin max M = 2 / ||w|| => min 0.5WtW

Non-linear SVMs:
映射到高维空间，一维到二维，或者x，y到 x2 y2 ，增加次方；

Kernels

String Kernel:针对文本，子串问题。

线性分类器；有冗余；会有噪声（错位）；增加惩罚数；解决线性不可分问题，增加维数，导致计算复杂度增大；kernel Trick，和函数K(a,b)=O(a)·O(b)

聚类分析

处理奇葩形状的数据，噪声和离群点

聚类的效果评价方式：

a(i): average dissimilarity of i with all other points in the same cluster

b(i): the lowest average dissimilarity of i to other clusters

K-means ：
步骤：

首先生成n个中心点；

划分范围后，确定N个中心点，用n个中心点取代原来的生成的中心点，

继续划分范围，继续确定新的中心点，继续替换，最后这个不变的时候，返回n个中心点。

优点：t:iteration; k:number of centroids; n:number of data points

缺点：初始不知道几个n点；局部最优点；噪点影响大；奇形怪状的不容易聚类。

Sequential Leader Clustering:

s设定距离门限，然后对数据依次判断一边，近来一个和之前的中心点判断。

Gaussian Mixture:

概率密度分布

期望最大化算法；

EM算法：硬币，迭代

EM。迭代求解模型
基于密度的：

聚类的性能：处理噪点，数据的形状。

1）DBSCAN

层次型聚类：

关联规则：Association Rule

Market-Based Problems

Items; Transaction; Cross Selling; Bundle Discount; Shop Layout Design
定义：I 是所有元素的集合，T 是I 的非空子集， D 是数据库，即所有T 的集合；

$P\Rightarrow Q where (P\subset I), (Q\subset I) and P \cap Q = \phi$

置信度：

频繁项和强规则：

minimum support σ

Minimum confidence Φ

Myth No . 1

得和原来的概率比较

Myth No . 2

两件事的概率差别比较大，A经常被人做，B罕见，做罕见事的人也做常见的事。

Myth No . 3
Association ≠ Causality

P(Y|X) is just the conditional probability.

The Apriori Method :数据挖掘十大算法之一

基本思想：

1）如果 T 是频繁的，则T 的所有子集也是频繁的；

2）如果 T 事不频繁的，则 T 的所有父集合也是不频繁的。

Step：所有 I 的单个元素集合，除去不频繁，两两结合，对两两结合的新集合，出去不频繁，继续增加到三个的，继续，，，，

序列模式：

数据与时间的关系，

序列考虑order ，所以数据组合就会更大，计算复杂度高。

新的组合方式：

推荐算法：

关联规则就是一个推荐算法。

TF-IDF

Vector Space Model

Latent Semantic Analysis

PageRank 网页排序

Collaborative Filtering。。。。

预测特定用户会不会喜欢这个东西，并且推荐的这个东西该用户不知道该东西

Content-Based Filtering基于内容的推荐（标签）；Collaborative Filtering协同过滤。

精准的广告营销。

具体的推荐算法：TF-IDF：

量化关联属性，

Term Frequency (TF)：Raw frequency：

集成学习

一种框架，生成多个分类器，然后combined；

Motivations

To improve the performance of a single model.

To reduce the likelihood of an unfortunate selection of a poor model.

Bagging

Boosting

Model Selection ：模型综合，把几个分类综合起来

Divide and Conquer：

Combiners:

Voting: 1)Majority·Random Forest 2)Weight Majority Voting·AdaBoost

Diversity: 不同的算法，不同的训练（不同的参数，不同的训练集）

Bootstrap Samples：

Bagging(Boostrap Aggregating):

从样本中采取多个不同的样本，对这多个样本进行训练得出多个不同的模型，最后对进来的位置参数进行投票机制。

随机森林是Bagging的一个实例。

用一些方法确定生成的树不一样，多余500棵。

三分之一的样本不会被Bagging（OOB），这些样本就会被成为测试数据。

数据的属性，100个属性，随机选择，譬如开根号10 。

Stacking：对随机森林的分类器进行权重的配置

k个不同的分类器（Bagging进行投票）。Stacking对K个分类器的输出结果作为输入，再训练一次（对K个输入加权重），最后输出。

Boosting:

Bagging 生成分类器的时候没有先后顺序，但是Boosting需要顺序。

目的性明确，没有太多的分类器；训练样本后期有权重。

Bagging aims at reducing variance, not bias.

In Boosting, classifiers are generated sequentially.

Focuses on most informative data points.

Training samples are weighted.

Outputs are combined via weighted voting.

Can create arbitrarily strong classifiers.

The base learners can be arbitrarily weak.

As long as they are better than random guess!

ADABoost：数据挖掘十大算法之一：

证明训练上界误差越来越小；

Advantages

Simple and easy to implement

Almost no parameters to tune

Proven upper bounds on training set

Immune to overfitting

Disadvantages

Suboptimal

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。