机器学习-笔记

机器学习定义:计算机程序在经验(E)学习中,优化算法的性能(P)。


用机器学习先明确目标:在什么样的假设情况下解决什么问题。

用模型前要假设数据分布。


分类和回归的区别是离散还是连续。


在特征互相独立时,朴素贝叶斯是最优分类器。

0频问题:某些事件一次也未发生,在用贝叶斯统计时候,就会出现概率为0的问题。违背朴素贝叶斯基本假设,输出依赖于所有假设。

解决方法:数据平滑。

  • 拉普拉斯估计:每个计数都加一。会引发的问题,在小数据量的时候就会严重偏离真实概率。
  • 图灵估计。r*=(r+1)·n(下标r+1)/n(下标r)。nr是历史数据中发生r次的时间的个数。

贝叶斯要好好研究。


聚类目标:簇内相似,簇间差异。


k均值的问题:k选几,k的初始位置,距离算法。

协同过滤本质也是聚类。


数据预处理可以用图形化去离群值。

连续数据离散化可以分段打标签,比如年龄段。

解决正负样本不均:

正:负,一般,2:1,3:1

方法:

  • 超采样,量少的重复。
  • 低采样。








用模型前要假设数据分布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值