python机器学习入门到精通(一)

最新推荐文章于 2024-08-26 15:35:53 发布

Charlie。

最新推荐文章于 2024-08-26 15:35:53 发布

阅读量1.1w

点赞数 23

分类专栏：机器学习文章标签： python 机器学习人工智能

本文链接：https://blog.csdn.net/caoyu1221/article/details/80631885

版权

机器学习概论

机器学习，顾名思义，它是人工智能、统计学、计算机科学交叉的研究领域，也被称作预测分析或统计学习。近年来，由于人工智能的火爆，机器学习方法已经应用到日常生活的方方面面。贴近我们生活的就有，系统自动推荐用户的喜好，买什么物品，点什么食物，浏览新闻时，给你推送什么类型的文章，甚至于我们登录淘宝购买物品，微博观看别人的微博时，这些每一部分都可能包含多种机器学习模型。当然，机器学习也在科研方面也有建树，比如DNA分析，天文学的研究，微观粒子等。同时，要想学好机器学习，数学的基础也是必须的。
机器学算法是将决策过程自动化的算法，而这些决策是从已知示例中泛化得出来的，而这种方法被称作监督学习(supervised learning)。用户将成对的输入和预期输出提供给算法，然后算法会找到一种方法，根据给定输入给出预期输出。从输入/输出对中进行学习的机器学习算法叫作监督学习算法，因为每个用于算法学习的样例都对应一个预期输出，就像老师教导学生在督算着算法。在生活中，监督机器学习任务大多应用于：

识别信封上手写的邮政编码, 输入扫描的手写数字，预期输出是邮政编码中的实际数字。想要创建用于构建机器学习模型的数据集，需要收集许多信封，然后可以自己阅读邮政编码，将数字保存为预期输出。
基于医学影像判断肿瘤是否为良性, 这里的输入是影像，输出是肿瘤是否为良性。创建用于构建模型的数据集，需要一个医学影像数据库，需要查看所有影像，然后判断哪些肿瘤是良性和不是良性的。
检测信用卡交易中的诈骗行为，输入是信用卡交易记录，输出是该交易记录是否可能为诈骗，收集数据集意味着需要保存所有的交易，并记录用户是否上报过任何诈骗交易。
确定一系列博客文章的主题，拥有许多文本数据，对其进行汇总，并找到其中共同的主题。
将客户分成具有相似偏好的群组，给定一组客户记录，需要找出哪些客户比较相似，并判断能否根据相似偏好对这些客户进行分组。
检测网站的异常访问模式，识别网站的滥用或bug，找到异常的访问模式。

scikit-learn 是一个开源项目，而scikit-learn依赖于另外两个python包：NumPy和SciPy, matplotlib、IPython和 Jupyter Notebook可以帮助我们进行绘图和进行交互式开发。
NumPy是python科学计算的基础包之一，NumPy数组是基本数据机构。它的功能包括多维数组、高级数学函数以及伪随机数生成器。Numpy的核心功能是ndarray类，即多维数组。数组的所有元素必须是同一类型，如：