学习人工智能第四周:聚类和自然语言处理

Kmeans聚类:

聚类是属于无监督学习
聚类的缺点
1初始值的影响
2被异常点影响,解决方案:去掉最高和最低分,求平均,这里的异常点是从整体上来看的。
3某些场合缺少物理化,比如年龄可以平均,但是男女不能平均
4数值问题,身高和体重,体重变化明显,但是身高不变
5,k值不好计算,也就是说,k表示分几类,最少是1,最大是样本数,,我们利用拐点来计算
聚类真实的场景:
很多的文章,先聚类为4类,比如政治,财经,娱乐,汽车,每一个聚类都有对应的专家,当一篇新的文章进来时,给政治专家,看是否是政治,也就是政治专家就只看政治的
面试题:为什么不用深度学习?
1我们数据量比较小,用深度学习会过拟合
2公司比较穷,买不起cpu

DBscan聚类:

kmeans的缺点:k要自己做假设,圆环同一个中心不好区分
DBscan:k不需要自己定义,可以解决圆环问题。缺点:运算量太大,不能分布式真实的缺点:参数非常难调
kmeans和dbscan都是无监督学习
通常的使用方法:
数据–dbscan(去噪声)–kmeans
实例:不管做什么,首先观察用户的特征找该领域的专家,如果人都没办法区分,让机器怎么区分?
机器学习的目的是让专家更加专注于特长所在

自然语言处理:

NLP :我 在 马士兵教育 学习 人工智能
LDA:词不同,但是领域相同,kmeans解决不了这个问题,比如机器学习和深度学习都属于人工智能领域
具体的使用:
新来一篇文章,求主题分布
1知道每个词的主题,求出文章的主题分布
2通过文章的主题分布,以及主题-词的分布,得到每个词的分布

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能小李子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值