华强买瓜
初六惊蛰。傍晚小街路面上沁出微雨后的湿润,和煦的细风吹来。大街上人流如织,很多人与我擦肩而过。我对他们一无所知,但总相信会来一个我的客人。因为每年的这个时候都会有许多人来买瓜。每天下午 3:29分 之前而我总能卖出去一个瓜。只不过这一次来了一个我从未见过的男人。
他看起来会是喜欢凤梨的男人,但是 他却来我这里买瓜了。这个地方有27个瓜摊但他却偏偏来我这里了。或许这就是我和他之间的情分。
但很多年以后我知道这不是人情是事故。
他一上来就问我瓜的价钱。卖瓜最大的好处随时可以替人做决定,哪个瓜该卖多少钱,哪个该卖出去。口味、重量、价钱早就决定好了。我一五一十的讲着价钱他漫不经意的拣着西瓜,突然他抬头望着我问:“这瓜保熟吗?”
基本术语
我们平常吃过很多瓜,当然我指的是真正的瓜不是某个明星的瓜。我们在生活中通过我们的生活经验可以知道,想要保证瓜熟。西瓜的色泽需要青绿、根蒂蜷缩、敲声浊响,满足上面这些基本就能判断出是熟的好瓜。
判断瓜熟不熟我们是靠经验,那计算机能帮忙吗?
答案是可以的。机器学习所研究的主要内容,是关于在计算机上从数据中产生“模 型“(model) 的算法,即“学习算法”.有了学习算法,我 们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例 如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如包熟)。
- 表1中记录的集合称为一个数据集 (data set);
- 其中每条记录是关于西瓜的描述,称为一个 “示例”(instance)或“样 本"(sample)。
- 反映事件或对象在某方面的表现或性质的事项,例如“色泽”“根蒂”“敲声”,称为 “属性"(attribute)或“特征“(feature)。
- ;属性上的取 值,例如“青绿” “乌黑”,称为 “属性值" 。
- 根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:’'监督学习"(supervised learning)和“无监督学习 ”(unsupervised learning)。
2 模型评估与选择
对于数据集的划分有三种方法:留出法,交叉验证法和自助法
2.1 留出法
为什么使用分层抽样,这样的好处有什么?
留出法是直接将数据集 D 划分为两个互斥的集合,其中一个集合作为训练集 S,另一个作为测试集 T 我们需要注意的是在划分的时候要尽可能保证数据分布的一致性,即避免因数据划分过程引入额外的偏差而对最终结果产生影响。为了保证数据分布的一致性,通常我们采用 分层采样 的方式来对数据进行采样。
如何解决单次使用留出法得到的估计结果往往不够稳定可靠?
在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作 为留出法的评估结果.例如进行100次随机划分,每次产生一个训练/测试集用 于实验评估,100次后就得到100个结果,而留出法返回的则是这100个结果的平均值。
2.2 交叉验证法
先将数据集D划分为k个大小相似的 互 斥 子 集 , 即 。
每 个 子 集 D i 都 尽可能保持数据分布的一致性,即从。中通过分层采样得到.然后,每次用 k - 1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果 的均值.显然,交叉验证法评估结果的稳定性和保真性在很大程度上取决于k 的取值,为强调这一点,通常把交叉验证法称为“ k折交叉验证”(Hfold cross validation), k最常用的取值是10,此时称为10折交叉验证;其他常用的k值有5、20等
2.3 自助法
自助法也称有放回的采样方法。给定包含 m 个样 本的数据集D ,我们对它进行采样产生数据集每次随机从D中挑选一个样本,将其拷贝放入D , 然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集D ,,这就是自助采样。
[1]: b站up 王中左右《瓜样年华》
[2]: 周志华《机器学习》