机器学习入门
Answerlzd
本博客作为个人的学习笔记,转载时已进行注明,若擅自转载了前辈博客,还请联系本人进行删除。
展开
-
重要的统计量(期望、方差、协方差、相关系数、矩)的概念和性质
一、期望1、定义 在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。离散型: 连续型 即:概率加权下的“平均值”。2、无条件成立...原创 2019-07-23 14:26:58 · 8149 阅读 · 0 评论 -
准确率(precision)、召回率(recall)与F1
在分类任务中,两种最常用的性能度量是错误率和精度。错误率是分类错误的样本数占样本总数的比例;精度则是分类正确的样本数占样本总数的比例。错误率和精度虽然常用,但并不能满足所有任务需求。 例如在信息检索和Web搜索中,经常关心的问题是“检索出来的信息有多少比例是用户感兴趣的”、“用户感兴趣的信息有多少被检索出来了”。准确率和召回率就是用来描述此类问题的性能度量。在有些...原创 2019-08-06 18:22:54 · 3124 阅读 · 0 评论 -
自助法(bootstrapping)划分数据集
一、前戏在将数据集划分为训练集和测试集时,测试样本应从真实分布中独立同分布采样获得;同时测试集应该尽可能与训练集互斥,也就是测试样本尽量不要在训练集中出现、未在训练过程中使用过。多数情况下采用留出法(hold-out),即从数据集中分层采样(stratified sampling)出约30%的数据作为测试集。分层采样的目的是要保持数据分布的一致性,避免划分过程引入额外的偏差。在留出法中...原创 2019-08-22 19:29:14 · 5518 阅读 · 0 评论