python机器学习基础

最新推荐文章于 2024-03-19 17:16:24 发布

anne_wang_swufe

最新推荐文章于 2024-03-19 17:16:24 发布

阅读量194

点赞数

分类专栏： python机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_42156897/article/details/93867855

版权

python机器学习专栏收录该内容

8 篇文章 3 订阅

订阅专栏

备注：本文主要来自于对《深入浅出python机器学习》书籍和其它资料的的学习总结笔记，感兴趣的同学可以购买本书学习,学习的本质就是形成自己的逻辑。

1、什么是机器学习

卡耐基梅隆大学的著名教授Tom Mitchell曾这样定义：如果一个程序在使用即有经验执行某类任务的过程中被认定是“具备学习能力的”，那么它一定需要展现出—利用现有经验，不断完善其完成既定任务的性能的特质。那么我们会发现3个关键术语：经验-Experience,任务-Task,性能-Performance。

1）任务

机器学习的任务种类有很多，经典的两类任务是监督学习和无监督学习。
监督学习先用训练集数据确定某一规则，再将此规则用于测试集数据看是否能获得好的分类性能，它关注对事物未知表现的预测，一般包括分类和回归问题；无监督学习则没有训练集数据，直接在所有数据中进行分类，它倾向于对事物本身特性的分析，常用的是数据降维和聚类问题。
监督学习中的分类问题，是指对类别变量进行分类预测，如根据一个人的三维数据预测性别分类；监督学习中的回归问题，是指对连续变量的预测，如根据房屋的特征数据预测销售价格。
无监督学习中的数据降维，是指对事物的特性进行压缩和筛选，如图像人脸识别任务中，直接使用像素信息数据的维度就特别高，需要对图像信息进行降维，保留最具有区分度的像素组合；无监督学习中的聚类问题，是指依赖数据的相似性，把相似的数据样本划分为一个簇，如电子商务网站根据用户的信息和购买习惯进行聚类，针对他们不同的兴趣投放广告和促销信息。

2）经验

经验并不是指所有的数据，而是指那些对学习任务有用的特定信息才会被列入考虑范围，我们通常把这些反映数据内在规律的信息叫做特征。
对于监督学习问题，我们所拥有的经验包括特征和标记，我们先让学习模型在这些经验中学习规则，再用规则来进行预测；无监督学习问题，没有特征和标记，利用数据的相似性把数据样本划分簇，非常适合对数据结构的分析。

3）性能

性能是评价学习模型完成任务质量的指标。性能评价的数据集称为测试集，我们需要保证测试集中的数据样本不能应用于模型训练。
监督学习中，对于分类问题，根据预测正确类别的百分比来评价其性能，这个指标通常称为准确性；对于回归问题，通常会衡量预测值与实际值之间的偏差大小。

那无监督学习怎么评价学习模型的性能呢？

2、python常用机器学习库

1）、Numpy-基础科学计算库
使用前要先安装pip install numpy,再导入import numpy as np
官方文档 http://www.numpy.org
http://reverland.org/python/2012/08/22/numpy/
2）、Scipy-更强大的科学计算库
他的使用依赖于Numpy；安装pip install Scipy,导入import numpy as np，from scipy import 某函数
官方文档 http://www.scipy.org/
http://reverland.org/python/2012/08/24/scipy/
3）、Matplotlib-画图库，也可以用pyecharts库
安装pip install matplotlib，导入import matplotlib.pyplot as plt
官方文档 http://matplotlib.org/gallery.html http://reverland.org/python/2012/09/07/matplotlib-tutorial/
4）、Pandas库-数据分析库
安装pip install pandas,导入import pandas as pd
官方文档http://pandas.pydata.org/pandas-docs/stable/
5）、Scikit-learn-机器学习库
它很依赖Numpy、Scipy和Matplotlib，需要先安装；然后再用pip install scikit-learn安装

在这里插入图片描述
官方文档：https://scikit-learn.org/stable/

安装包三步：pip list查看已经安装的包；pip install 包名安装没有的包；import 包名导入包

3、python机器学习常用算法

在这里插入图片描述

4、模型的评估

在有监督学习中，我们会在训练数据集上建立一个模型，之后会把这个模型用于新的之前从未见过的数据中，这个过程我们称为模型的泛化。我们当然希望这个预测的准确度越高越好。
那么模型泛化性能的评估有什么标准呢？
在这里插入图片描述

5、监督学习过程

简单来说，监督学习分为数据准备、数据建模、模型应用三步骤。
数据准备指：找到数据、导入数据、选择特征；
数据建模指：将原数据拆分成训练集和测试集，用训练集数据对模型进行训练，用测试集数据对模型进行测试，查看模型在训练集和测试集中的拟合情况，以判断模型是否合适，不停调参使模型性能更好；
模型应用指：将性能好的模型应用于预测数据。

anne_wang_swufe

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python机器学习基础

1、什么是机器学习卡耐基梅隆大学的著名教授Tom Mitchell曾这样定义：如果一个程序在使用即有经验执行某类任务的过程中被认定是“具备学习能力的”，那么它一定需要展现出—利用现有经验，不断完善其完成既定任务的性能的特质。那么我们会发现3个关键术语：经验-Experience,任务-Task,性能-Performance。代码块任务机器学习的任务种类有很多，经典的两类任务是监督学习...
复制链接

扫一扫

专栏目录