python机器学习基础

备注:本文主要来自于对《深入浅出python机器学习》书籍和其它资料的的学习总结笔记,感兴趣的同学可以购买本书学习,学习的本质就是形成自己的逻辑。

1、什么是机器学习

卡耐基梅隆大学的著名教授Tom Mitchell曾这样定义:如果一个程序在使用即有经验执行某类任务的过程中被认定是“具备学习能力的”,那么它一定需要展现出—利用现有经验,不断完善其完成既定任务的性能的特质。那么我们会发现3个关键术语:经验-Experience,任务-Task,性能-Performance。

1)任务

  • 机器学习的任务种类有很多,经典的两类任务是监督学习和无监督学习。

  • 监督学习先用训练集数据确定某一规则,再将此规则用于测试集数据看是否能获得好的分类性能,它关注对事物未知表现的预测,一般包括分类和回归问题;无监督学习则没有训练集数据,直接在所有数据中进行分类,它倾向于对事物本身特性的分析,常用的是数据降维和聚类问题。

  • 监督学习中的分类问题,是指对类别变量进行分类预测,如根据一个人的三维数据预测性别分类;监督学习中的回归问题,是指对连续变量的预测,如根据房屋的特征数据预测销售价格。

  • 无监督学习中的数据降维,是指对事物的特性进行压缩和筛选,如图像人脸识别任务中,直接使用像素信息数据的维度就特别高,需要对图像信息进行降维,保留最具有区分度的像素组合;无监督学习中的聚类问题,是指依赖数据的相似性,把相似的数据样本划分为一个簇,如电子商务网站根据用户的信息和购买习惯进行聚类,针对他们不同的兴趣投放广告和促销信息。

2)经验

  • 经验并不是指所有的数据,而是指那些对学习任务有用的特定信息才会被列入考虑范围,我们通常把这些反映数据内在规律的信息叫做特征。
  • 对于监督学习问题,我们所拥有的经验包括特征和标记,我们先让学习模型在这些经验中学习规则,再用规则来进行预测;无监督学习问题,没有特征和标记,利用数据的相似性把数据样本划分簇,非常适合对数据结构的分析。

3) 性能

  • 性能是评价学习模型完成任务质量的指标。性能评价的数据集称为测试集,我们需要保证测试集中的数据样本不能应用于模型训练。

  • 监督学习中,对于分类问题,根据预测正确类别的百分比来评价其性能,这个指标通常称为准确性;对于回归问题,通常会衡量预测值与实际值之间的偏差大小。

    那无监督学习怎么评价学习模型的性能呢?

2、python常用机器学习库

1)、Numpy-基础科学计算库
使用前要先安装pip install numpy,再导入import numpy as np
官方文档 http://www.numpy.org
http://reverland.org/python/2012/08/22/numpy/
2)、Scipy-更强大的科学计算库
他的使用依赖于Numpy;安装pip install Scipy,导入import numpy as np,from scipy import 某函数
官方文档 http://www.scipy.org/
http://reverland.org/python/2012/08/24/scipy/
3)、Matplotlib-画图库,也可以用pyecharts库
安装pip install matplotlib,导入import matplotlib.pyplot as plt
官方文档 http://matplotlib.org/gallery.html http://reverland.org/python/2012/09/07/matplotlib-tutorial/
4)、Pandas库-数据分析库
安装pip install pandas,导入import pandas as pd
官方文档http://pandas.pydata.org/pandas-docs/stable/
5)、Scikit-learn-机器学习库
它很依赖Numpy、Scipy和Matplotlib,需要先安装;然后再用pip install scikit-learn安装

在这里插入图片描述
官方文档:https://scikit-learn.org/stable/

安装包三步:pip list查看已经安装的包;pip install 包名 安装没有的包;import 包名 导入包

3、python机器学习常用算法

在这里插入图片描述

4、模型的评估

在有监督学习中,我们会在训练数据集上建立一个模型,之后会把这个模型用于新的之前从未见过的数据中,这个过程我们称为模型的泛化。我们当然希望这个预测的准确度越高越好。
那么模型泛化性能的评估有什么标准呢?
在这里插入图片描述

5、监督学习过程

简单来说,监督学习分为数据准备、数据建模、模型应用三步骤。
数据准备指:找到数据、导入数据、选择特征;
数据建模指:将原数据拆分成训练集和测试集,用训练集数据对模型进行训练,用测试集数据对模型进行测试,查看模型在训练集和测试集中的拟合情况,以判断模型是否合适,不停调参使模型性能更好;
模型应用指:将性能好的模型应用于预测数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值