- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 机器学习之特征工程——基于Scikit-Learn
《Python数据科学手册》 笔记前几篇博客的所有示例都假设已经拥有一个干净的[n_samples,n_features]特征矩阵。但在现实工作中,数据很少会这么干净,例如,数据中含有缺失值、含非数值内容等等。这时候,就需要用到特征工程——将其转换为特征矩阵的数值。接下来简要介绍如何处理分类特征、文本特征、图像特征,如何在已有的特征基础上衍生特征,以及如何填充缺失值。一、分类特征当数据...
2019-02-28 17:13:23 418
原创 机器学习之模型验证——基于Scikit-Learn
《Python数据科学手册》 笔记一、超参数 在模型拟合数据之前必须确定好的参数。二、交叉验证 将模型分为N组,每一轮依次用模型拟合其中的 N-1 组数据,再预测剩下一组数据,评估模型准确率。 以五轮交叉验证为例:用函数实现:这是在我上一篇博客代码的基础上添加的,单独这两行代码是要报错的哦!(上一篇博客)其中,model是实例化的...
2019-02-28 15:21:28 1565 1
原创 Scikit-Learn简介 —— 数据表示及评估器API
《Python 数据科学手册》笔记一、Scikit-Learn的数据表示 1.Scikit-Learn基本的数据表示二维网格数据,每一行表示数据集中的每个样本,每一列表示相关特征 (量化观测值)。例如鸢尾花数据集:2.通常将上述除开最后一列的表格称为特征矩阵,记为变量X,它是维度为[n_samples,n_features](即 [样本数,特征数])的二维矩阵。而最后一列...
2019-02-27 20:46:39 576
原创 机器学习概念、分类及应用简介
《Python数据科学手册》 笔记一、机器学习的概念 机器学习的本质是借助数学模型理解数据,通俗来讲,就是给模型装上合适的可调参数,通过观测数据不断去调参,更新模型,最终“学习”到一个适应于新的观测数据的模型。二、机器学习的分类三、机器学习的应用垃圾邮件自动识别:根据垃圾邮件关键词与短语出现的频次来分类“垃圾邮件”和“普通邮件”计算星系距离:根据星系的波长...
2019-02-27 19:30:16 2774
程序基本算法习题解析
2018-12-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人