2019年02月_elma_tww

04月 03月 02月 01月

原创机器学习之特征工程——基于Scikit-Learn

《Python数据科学手册》笔记前几篇博客的所有示例都假设已经拥有一个干净的[n_samples,n_features]特征矩阵。但在现实工作中，数据很少会这么干净，例如，数据中含有缺失值、含非数值内容等等。这时候，就需要用到特征工程——将其转换为特征矩阵的数值。接下来简要介绍如何处理分类特征、文本特征、图像特征，如何在已有的特征基础上衍生特征，以及如何填充缺失值。一、分类特征当数据...

2019-02-28 17:13:23 418

原创机器学习之模型验证——基于Scikit-Learn

《Python数据科学手册》笔记一、超参数在模型拟合数据之前必须确定好的参数。二、交叉验证将模型分为N组，每一轮依次用模型拟合其中的 N-1 组数据，再预测剩下一组数据，评估模型准确率。以五轮交叉验证为例：用函数实现：这是在我上一篇博客代码的基础上添加的，单独这两行代码是要报错的哦！（上一篇博客）其中，model是实例化的...

2019-02-28 15:21:28 1565 1

原创 Scikit-Learn简介 —— 数据表示及评估器API

《Python 数据科学手册》笔记一、Scikit-Learn的数据表示 1.Scikit-Learn基本的数据表示二维网格数据，每一行表示数据集中的每个样本，每一列表示相关特征（量化观测值）。例如鸢尾花数据集：2.通常将上述除开最后一列的表格称为特征矩阵，记为变量X，它是维度为[n_samples,n_features]（即 [样本数，特征数]）的二维矩阵。而最后一列...

2019-02-27 20:46:39 576

原创机器学习概念、分类及应用简介

《Python数据科学手册》笔记一、机器学习的概念机器学习的本质是借助数学模型理解数据，通俗来讲，就是给模型装上合适的可调参数，通过观测数据不断去调参，更新模型，最终“学习”到一个适应于新的观测数据的模型。二、机器学习的分类三、机器学习的应用垃圾邮件自动识别：根据垃圾邮件关键词与短语出现的频次来分类“垃圾邮件”和“普通邮件”计算星系距离：根据星系的波长...

2019-02-27 19:30:16 2774

程序基本算法习题解析

《程序基本算法习题解析》第一章第七页第6题程序任意给一个四位数（各位数不完全相同），各位上的数可组成一个最大数和一个最小数，它们的差又能组成一个最大数和一个最小数，直到某一步得到的差将会出现循环重复。写一个程序统计所有满足以上条件的四位数。

2018-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 机器学习之特征工程——基于Scikit-Learn

原创 机器学习之模型验证——基于Scikit-Learn