机器学习5-线性分类器,Knn算法,朴素贝叶斯分类器,文本挖掘

一. 分类

1.1 分类的意义

  1. 传统意义下的分类: 生物物种
  2. 预测: 天气预报
  3. 决策: yes or no

1.2 分类与聚类的差别

图片来源:
https://www.zhihu.com/question/42044303/answer/470589507
image.png

1.3 分类和聚类常用的算法

image.png

分类算法:

  1. K近邻(KNN)
  2. 逻辑回归
  3. 支持向量机
  4. 朴素贝叶斯
  5. 决策树
  6. 随机森林

聚类算法 :

  1. K均值(K-means)
  2. FCM(模糊C均值聚类)
  3. 均值漂移聚类
  4. DBSCAN
  5. DPEAK
  6. Mediods
  7. Canopy

1.4 线性判别法的例子

以天气预报为例。

代码:

G=c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)
x1=c(-1.9,-6.9,5.2,5.0,7.3,6.8,0.9,-12.5,1.5,3.8,0.2,-0.1,0,2.7,2.1,-4.6,-1.7,-2.6,2.6,-2.8)
x2=c(3.2,0.4,2.0,2.5,0.0,12.7,-5.4,-2.5,1.3,6.8,6.2,7.5,14.6,8.3,0.8,4.3,10.9,13.1,12.8,10.0)

a=data.frame(G,x1,x2)
plot(x1,x2)
text(x1,x2,G,adj=-0.5)

测试记录:
image.png

用一条直线来划分训练集(这条直线一定存在吗?)
然后根据待测点在直线的哪一边决定它的分类

代码:

library(MASS)
ld=lda(G~x1+x2)
ld
z=predict(ld)
newG=z$class
newG
y=cbind(G,z$x,newG)
y

image.png

二. 文本挖掘典型场景

2.1 网页自动分类

image.png

2.2 垃圾邮件判断

朴素贝叶斯分类器,使用的最频繁
先分词,然后判定垃圾邮件

朴素贝叶斯分类 变量彼此之间没有联系,互不影响

image.png

2.3 评论自动分析

image.png

2.4 通过用户访问内容判别用户喜好

用户流失预警:
image.png

用户标签系统:
image.png

三. 贝叶斯信念网络

贝叶斯信念网络 区别于 朴素贝叶斯,各个变量之间存在某种关联关系,这种情况其实更贴合实际应用场景。
image.png

image.png

image.png

贝叶斯推理:
image.png

image.png

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值