认知实习记录day02-机器学习概述(二)

一.特征工程概念入门

1.相关概念

 (1) 特征(feature):从数据中抽取出来的,对结果预测有用的信息,有时也被称为属性。

 (2)特征工程:利用专业背景知识和技巧处理数据,让模型效果最好的过程叫做特征工程。

2.特征工程的内容

(1)特征提取:原始数据中提取与任务相关的特征,构成特征向量。

(2)特征预处理:特征对模型产生影响;因量纲问题,有些特征对模型影响大,有些影响小。

(3)特征降维:将原始数据的维度降低,叫做特征降维,一般会对原始数据产生影响

(4)特征选择:原始数据特征很多,与任务相关是其中一个特征集合子集,不会改变原数据

(5)特征组合:把多个的特征合并成一个特征。一般利用乘法或加法来完成。

二.模型拟合问题

1.拟合(fitting):用在机器学习领域,用来表示模型对样本点的拟合情况。

2.欠拟合(under-fitting):模型在训练集上表现很差,在测试集上表现也差

        产生原因:模型过于简单。

3.过拟合(over-fitting):模型在训练集上表现很好,在测试集上表现很差

        产生原因:模型太过于复杂,数据不纯,训练数据太少。

4.泛化(Generalization):模型在新数据集上的表现好坏的能力。

   奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,倾向选择较简单的模型。

三.机器学习开发环境

基于python的scikit-learn库

(1)优点:简单高效,可在各种环境中重复使用,开源,可商业使用。

(2)安装方法:pip install scikit-learn

  • 11
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值