1、k-近邻算法:手写字符识别
通过算法训练识别字符为0-9的数字,也可以为A-Z的字符,目前sklearn提供的数据集里面为0-9的数字。数据训练前需要用图像处理软件将数字转换成宽高为32X32的黑白图像,然后将其变换成1x1024的向量。
2、朴素贝叶斯:垃圾邮件过滤
邮箱系统如何分辨一封Email是否属于垃圾邮件?这应该属于文本挖掘的范畴,通常会采用朴素贝叶斯的方法进行判别。它的主要原理是,根据邮件正文中的单词,是否经常出现在垃圾邮件中,进行判断。
更多Python视频、源码、资料加群683380553免费获取
3、Logistic回归:预测病马的死亡率
Logistic回归又称Logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。使用Logistic回归来预测患疝气病的马的存活问题是一个典型的案例,项目数据集包含了医院检测马疝病的368个样本和28个特征,有的指标比较主观,有的指标难以测量。
4、基于协同过滤:菜肴推荐引擎
构建一个推荐系统,该系统可以像一个人推荐去哪儿吃饭和菜品推荐,解决人们选择饭店和不知道点什么菜的问题。这个系统能够寻找用户没有尝过的菜肴,预估用户对该菜品的评分,然后通过SVD来减少特征空间并提高推荐效果。
5、基于异常值分析:支付中的交易欺诈侦测
采用支付宝支付时,或者刷信用卡支付时,系统会实时判断这笔刷卡行为是否属于盗刷。通过判断刷卡的时间、