3数据分析与知识发现

本文详细介绍了数据分析中的经典算法,包括分类分析、关联分析、聚类分析和回归分析。分类分析中讨论了线性分类模型如逻辑回归、线性判别分析,以及非线性模型如支持向量机、K近邻、决策树和朴素贝叶斯。关联分析中阐述了Apriori算法和FP-Tree算法。聚类分析提到了K均值算法和DBSCAN。回归分析中提及了线性回归和支持向量回归。文章深入探讨了各类算法的工作原理、优缺点和应用场景。
摘要由CSDN通过智能技术生成

在数据分析中包括四大经典算法——关系模式、分类、聚类、回归。
一.分类分析
分类是找出数据库中一组数据对象的共同特点并按照分类模式将它们划分为不同的类,其目的是通过分类模型将数据库中的数据项映射到某个给定的类别。
分类学习是一类监督学习的问题,训练数据会包含其分类结果,根据分类结果可以分为以下几类:
二分类问题:是与非的判断,分类结果为两类,从中选择一个作为预测结果。
多分类问题:分类结果为多个类别,从中选择一个作为预测结果。
多标签分类问题:不同于前两类,多标签分类问题中一个样本的预测结果可能是多个,也可能有多个标签。九就模型本质所能解决问题的角度来说,可以分为线性分类模型和非线性分类模型。
在线性分类模型中,假设特征与分类结果存在线性关系,通常将样本特征进行线性组合,表示形式如下:
f(x)=w1x1+w2x2+…+wdxd+b
表示成向量形式如下:
f(x)=wx+b
其中,w=(w1,w2,…,wd),线性模型的算法则为对w和b的学习,典型的算法包括逻辑回归(Logistic Regression)、线性判别分析(Linear Discriminant Analysis)。
当所给的样本是线性不可分时需要非线性分类模型,非线性分类模型中的经典算法包括K近邻(K-Nearest Neighbor,KNN)、支持向量机(Support Vector Machine)、决策树(Decision Tree)和朴素贝叶斯(Navie Bayes)。
1.逻辑回归
特征和最终分类结果之间表示为线性关系,但是得到的f是映射到整个实数域中的。分类问题,例如二分类问题需要将f映射到{0,1}空间,因此仍需要一个函数g()完成实数域到{0,1}空间的映射。在逻辑回归中g()为Logistic()函数,当g()>0时,x的预测结果为正,否则为负。
逻辑回归的优点是直接对分类概率(可能性)进行建模,无须事先假设数据分布,是一个判别模型,并且g()相当于对x为正样本的概率预测,对于一些任务可以得到更多的信息。Logistic()函数本身也有很好的性质,是任意阶可导凸函数,许多数学方面的优化算法可以使用。
2.线性判别分析
线性判别分析的思想是针对训练集,将其投影到一条直线上,使得同类样本点尽量接近,异类样本点尽量远离。即同类样本计算得到的f尽量比较相似,协方差较小,异类样本的中心间的距离尽可能大,同时考虑两者可以得到线性判别分析的目标函数。
3.支持向量机
支持向量机的想法的来源是基于训练集在样本空间中找到一个超平面可以将不同类别的样本分开,并且使得所有的点尽可能远离超平面,但实际上离超平面很远的点都已经被分类正确,用户所关心的是离超平面较近的点,这是容易被误分类的点,如何使离得较近的点尽可能远离超平面,如何找到一个最优的超平面以及最优超平面如何定义是支持向量机需要解决的问题。用户所需要寻找的超平面应该对样本局部扰动的“容忍性”最好,即结果对于未知样本的预测更加准确。
可以定义超平面的方程如下:
wx+b=0
其中,w为超平面的法向量,b为位移项。定义函数间隔为y(wx+b),其中y是样本的分类标签(在支持向量机中使用1和-1)表示,y与(wx+b)同号代表分类正确,但是函数间隔不能正常反映点到超平面的距离,当w和b成比例增加时函数间隔也成倍增长,所以加入对法向量w的约束,这样可以得到几何间隔。
支持向量机中寻找最优超平面的思想是离超平面最近的点与超平面之间的距离尽量大。如果所有样本不仅可以被超平面分开,还和超平面保持一定的函数距离,这样的超平面为支持向量机中的最优超平面,和超平面保持一定函数距离的样本定义为支持向量。
SVM模型目的是让所有点到超平面的距离大于一定的值,即所有点要在各自类别的支持向量的两边。
上述内容介

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值