第一章—初识机器学习

最新推荐文章于 2025-01-09 15:46:18 发布

WWittcch

最新推荐文章于 2025-01-09 15:46:18 发布

阅读量605

点赞数 19

文章标签：机器学习人工智能 python

本文链接：https://blog.csdn.net/qq_52333380/article/details/136014469

版权

本文介绍了机器学习的基本概念，包括其作为人工智能分支的重要地位，以及监督学习（如回归和分类）、无监督学习（如聚类）和强化学习的应用实例。强调了理解这些概念对初学者的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一章-初识机器学习

在重要定义出贴了英文原版便于更深度的对概念的理解

前言

机器学习是现今最激动人心的技术之一
每天的生活中我们都与学习算法(learning algorithm)打交道，举个例子：
1.我们使用搜索引擎的时候，最贴合的内容在最前面就是因为它使用了给检索内容排版的学习算法。
2.百度网盘可以自动给你和你的朋友的照片分类，这也是学习算法
3.阅读邮件的时候垃圾邮件过滤器可以帮助你过滤掉大量垃圾邮件，这也是学习算法
机器学习之所以激动人心就是因为我们也许在遥远的未来可以创造出像你我一样的智能的AI，许多人工智能的学习者认为最好的方式就是采用学习算法模拟人类大脑的学习方式

一、机器学习（machine learning)是什么？

1.机器学习的主要领域

机器学习是人工智能（artificial intelligence)发展出来的一个领域，仅仅知道算法和数学含义是不够的，还需要明白如何实际应用他们解决你所关心的问题。机器学习涉及的领域很广，包括网络点击数据，医疗数据，自主机器人，计算生物学等
database mining,the gorwth of the web and the growth of automation,all this means we have much larger data sets than ever before.
So for example tons of Silicon Valley companies are today collecting web click data ,also called clickstream data,and try to use machine learning algorithms to mine this data to better understand the users and to serve the users better.
medical records,with the advent of automation,now we have electronic medicial records.so if we can turn medicial records into medical knowledge then we can start to understand disease better.
computer biology,with automation again,biologists are collecting lots of data about gene sequences,DNA sequences,and so on.
And in engineering as well,in all fields of engineering we have larger data sets that we are trying to understand using learning algorithms

2.机器学习的两种定义

Samuel’s defination of machine learning -as the field of study that gives computers the ability to learn without being explicitly programmed意思为是一种学习领域，给计算机一种不用明确编程计算需要做什么的学习能力
what Samuel do-他做了一个跳棋程序，使程序自己对弈几万次，通过观察那些布局容易赢，那些布局容易输，一段时间之后，计算机就可以学习到哪些是好的布局，哪些是不好的布局，最终程序成为了一个优异的跳棋手。
Tom Mitchell well-posted learning problem-a computer is said to learn from experence E with respect to some task T and some performance measure P,if its performance on T,as measured by P,improves with experience E，计算机程序从经验E中学习，解决某一任务T，进行某一性能度量P,通过P测定在T上的表现因经验E而提高
基于第二个定义，对于跳棋游戏来说E就是跳棋程序跟自己下了几万次跳棋，任务T就是玩跳棋，性能度量P就是与新对手玩跳棋赢的概率

二.机器学习的主要分类

machine learning algorithms
1.supervised learning(监督学习）-我们会教计算机做某件事，主要分为回归（输出一系列连续数值）和分类（输出一系列离散数值）
the term supervised learning refers to the fact that we give the algorithm a data set in which the"right answers" were given.Such as we give it a data set of houses in which for every exanple in this data set,we told it what is the right price or what is the actual that the house sold for
我们给算法一个数据集其中包含了正确答案在也就是说我们给它一个房价数据集，在这个数据集中的每个样本，我们都给出正确的价格，算法的目的就是给出更多的正确答案，例如给你朋友想要卖掉的这所新房子给出估价，这也被叫做回归问题（regression problem)，因为我们想要预测连续的数值输出。或者肿瘤分为良性（benign)或者恶性（malignant),收集肿瘤的性质和肿瘤的尺寸关系的数据集然后机器学习的问题就是你是否能利用机器学习来判断这个肿瘤是恶性的还是良性的概率，这是一个分类问题（classification),即我们设法预测一个离散值的输出即0/1，恶性或者良性。
利用肿瘤的大小来判断是一个特征，利用肿瘤的大小和病人的年龄来预测是两个特征，如果有更多的特征就可以输出更多的离散值0、1、2、3…
2.unsurpervised learning(无监督学习）-让计算机自己学习
将没有分类的数据分成两个不同的簇，这就是聚类算法，举一个例子，谷歌新闻应用聚类算法然后可以将大量的新闻组合成一个个新闻专题，关于一个话题/关键字的相关新闻聚合在一个板块。无监督学习的不同点就是我们并没有提前告知这个算法（这是类型1，这是类型2…),相反只是告诉算法这里有一堆数据，我不知道这些数据是什么和什么类型，需要算法自动找出这些数据的结构，我们并没有吧数据集中的正确答案给算法，这就是无监督学习。
鸡尾酒会问题：一个宴会一屋子的人许多人同时开始说话，你很难听清都是谁在说什么，但是假设一个鸡尾酒会上只有两个人，两个人同时说话，我们将两个麦克风放在里面，两个麦克风与说话者的距离不同每个麦克风记录了来自两个人声音的不同组合，我们可以吧这两个麦克风的录音交给一种无监督学习算法——鸡尾酒会算法，将这两种混合的声音分离输出。
类似这样的无监督学习算法可能代码非常复杂，看起来为了构建这个应用程序似乎需要写很多代码或者连接到一堆C++或者Java库处理音频，分离音频等。但是实际上只要你使用正确的编程环境那么只需要一行代码。比如Octave的编程环境。
3.others：reinforcement learning（强化学习），recommender(推荐系统）