使用k近邻和朴素贝叶斯处理分类问题

属性分类距离问题,当使用1,2,3,4表示喜怒哀乐的话,喜和怒的距离明显比喜和乐的距离要远。
解决这个问题,我们可以把特征转化为1-5的区间,例如这部电影有多少喜剧的成分。
那么推荐的原因是什么呢?我们不应该因为取值处于低端的值而采取错误的结果,即他们都没有什么什么而去推荐,相反地我们应该对那些在
高端的公共特征。
下一步,当你加入了其他区间远大于1-5的特征时,你要注意由于设计到距离的计算,所以要采用归一化。
如果是像推荐算法的这样的稀疏数据集,会表现为标准差小,这时候不能使用z-score中心化处理了,否则破坏了系数数据结构
并且就好像公司平均薪资受极高薪的CEO影响一样,我们可以使用每个值减去中位数而不是减去均值的方法也可以使用MaxAbs

关于算法的精度测试,自行划分数据集可能导致数据走向极端不走运或走运,这时候我们可以将数据分成n份,
当n=3时,即使用part1,2训练,3测试;使用1,3训练,2测试;使用2,3训练,1测试。
一般情况下我们使用n=10,称为10折交叉验证
10折交叉在分数据集的时候可能不是按原来类别的比例进行分配的,分层采样的思想就是原来的类别是什么比例存在的就按什么比例分割。

在给出一个分类器精度后,比如55%,这个数字意味着好还是不好呢
可以使用Kappa统计量来给出相对于随机分类器而言实际分类器到底好多少,p实际-p随机除以(1-p随机)
当大于0.61时,为高度一致。

利用近邻算法,很难量化分

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值