python机器学习入门到精通(一)

机器学习概论

机器学习,顾名思义,它是人工智能、统计学、计算机科学交叉的研究领域,也被称作预测分析或统计学习。近年来,由于人工智能的火爆,机器学习方法已经应用到日常生活的方方面面。贴近我们生活的就有,系统自动推荐用户的喜好,买什么物品,点什么食物,浏览新闻时,给你推送什么类型的文章,甚至于我们登录淘宝购买物品,微博观看别人的微博时,这些每一部分都可能包含多种机器学习模型。当然,机器学习也在科研方面也有建树,比如DNA分析,天文学的研究,微观粒子等。同时,要想学好机器学习,数学的基础也是必须的。
机器学算法是将决策过程自动化的算法,而这些决策是从已知示例中泛化得出来的,而这种方法被称作监督学习(supervised learning)。 用户将成对的输入和预期输出提供给算法,然后算法会找到一种方法,根据给定输入给出预期输出。从输入/输出对中进行学习的机器学习算法叫作监督学习算法,因为每个用于算法学习的样例都对应一个预期输出,就像老师教导学生在督算着算法。在生活中,监督机器学习任务大多应用于:

  • 识别信封上手写的邮政编码, 输入扫描的手写数字,预期输出是邮政编码中的实际数字。想要创建用于构建机器学习模型的数据集,需要收集许多信封,然后可以自己阅读邮政编码,将数字保存为预期输出。
  • 基于医学影像判断肿瘤是否为良性, 这里的输入是影像,输出是肿瘤是否为良性。创建用于构建模型的数据集,需要一个医学影像数据库,需要查看所有影像,然后判断哪些肿瘤是良性和不是良性的。
  • 检测信用卡交易中的诈骗行为, 输入是信用卡交易记录,输出是该交易记录是否可能为诈骗,收集数据集意味着需要保存所有的交易,并记录用户是否上报过任何诈骗交易。
  • 确定一系列博客文章的主题,拥有许多文本数据,对其进行汇总,并找到其中共同的主题。
  • 将客户分成具有相似偏好的群组,给定一组客户记录, 需要找出哪些客户比较相似,并判断能否根据相似偏好对这些客户进行分组。
  • 检测网站的异常访问模式,识别网站的滥用或bug,找到异常的访问模式。

scikit-learn 是一个开源项目,而scikit-learn依赖于另外两个python包:NumPy和SciPy, matplotlib、IPython和 Jupyter Notebook可以帮助我们进行绘图和进行交互式开发。
NumPy是python科学计算的基础包之一,NumPy数组是基本数据机构。它的功能包括多维数组、高级数学函数以及伪随机数生成器。Numpy的核心功能是ndarray类,即多维数组。数组的所有元素必须是同一类型,如:

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值