从零开始的机器学习 L1自学笔记：什么是机器学习（1）

从零开始的机器学习生活

已于 2022-03-10 19:56:18 修改

阅读量1.8k

点赞数 2

分类专栏：自学笔记文章标签：机器学习人工智能

于 2021-12-23 19:52:00 首次发布

本文链接：https://blog.csdn.net/chaiyutianxia/article/details/122114535

版权

自学笔记专栏收录该内容

2 篇文章 2 订阅

订阅专栏

最近刚入手了陈强的《机器学习及python应用》，准备有时间就看一页，把笔记和想法写下来，以便自己复习和网上大佬指点迷津。

希望自己能够坚持下去，有空就写一写，直到学完为止，然后用它来发一篇文章，给自己的努力一个交代，不过学业繁杂又很忙，可能很久才能更新一次。

1.1什么是机器学习

机器学习是指让计算机具备从大数据中学习的能力的一系列方法。机器学习源于人工智能(artificial intenlligence,AI).

1.1.1硬编码和学习

硬编码是指人类直接把规则告诉计算机，计算机根据这些死规则处理数据。

比如利用计算机进行垃圾邮件分类，人们可以通过设置含有“抽奖”等字眼的短信为垃圾信息，计算机就会把含有关键词的短信自动列为垃圾短信。但这种硬编码做法并不高效，因为很多垃圾短信的内容五花八门。

学习则是人类将数据交于计算机自行判断，计算机通过自己学习大量数据从而总结出结果。

比如实现将标注为“垃圾短信”和“正常短信”的短信输入电脑，电脑根据大数据中“垃圾短信”中特征出现频率来总结哪些关键词是“垃圾短信”的关键词，一个垃圾邮件通常包涵很多关键词，这时候通常可以使用数学方法，如“朴素贝叶斯”，通过垃圾邮件的一个特征，算出该短信为垃圾短信的条件概率，再将各种特征综合起来，算出短信为垃圾短信的概率，加入概率超过临界值（如0.9），则将该短信列为垃圾短信。这种方法就叫“贝叶斯垃圾邮件过滤”

1.1.2大数据与机器学习

机器学习通过大数据来进行学习，显然数据越多，机器学习的效果越好，并且数据可以根据时间动态更新。

1.2机器学习的分类

1.2.1监督学习

“监督学习”就是有目标的学习。假设第i位个体数据（或观测值）可以写为 $\left ( yi,xi\right )$ ,“监督学习”就是用 $xi$ 预测 $yi$ ， $yi$ 起着监督和指导的作用，因此“监督学习”又叫做“预测性建模”。比如垃圾邮件的例子， $xi$ 可以表示为不同词汇出现在垃圾邮件中的频率， $yi$ 为一个取值为0或1的虚拟变量或哑变量，取值为1表示为垃圾邮件。“监督学习”还可以根据 $yi$ 的性质进一步细分。若 $yi$ 是连续变量，则称为“回归”；如果是离散变量（或虚拟变量），则称为“分类”

1.2.2非监督学习

与“监督学习”相对的就是“非监督学习”。和“监督学习”不同的地方在于，对于“非监督学习”，数据只是 $xi$ ，没有 $yi$ ，而整个 “非监督学习”的过程就是为了在 $xi$ 中找到某种规律，这个规律就类似于“监督学习”中的 $yi$ ，但它是未被给定的。常见的非监督学习方法包括“主成分分析”（principal component analysis）与“聚类分析”（cluster analysis）等

1.2.3其他分类

如“半监督学习”、“强化学习”等，略

1.3机器学习的术语

$xi$ 一般被称为“自变量”、“解释变量”、“协变量”，在机器学习中被称作“特征”

$yi$ 一般被称为“因变量”、“被解释变量”、“结果变量”，在机器学习中被称为“相应变量”或“目标”。对于分类问题，离散的 $yi$ （响应变量）又被称作“标签”或“类别”

第i个数据一般在统计学中被称为“观测值”或“样本点”，在机器学习中被称为“样例”或“示例”

学习书目：陈强《机器学习及python应用》

从零开始的机器学习生活

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
从零开始的机器学习 L1自学笔记：什么是机器学习（1）

最近刚入手了陈强的《机器学习及python应用》，准备有时间就看一页，把笔记和想法写下来，以便自己复习和网上大佬指点迷津。陈强大佬在前言里说的话让我激动与欣慰，作为一个在一个普通一本学校的刚读研一的菜鸟，第一次认识机器学习是在一次组会上一个本科学弟发表的论文，当时让我大为震撼和激动，没想到经济学也可以与计算机甚至人工智能相结合，一直受他人“经济学就是文科人在讲故事”非议之苦的我顿时觉得这就是经济学未来的方向，但又有所迷茫，我能否掌握这门看似高深的学问呢？陈强大佬的话让我惊喜，我并不是少数关注机器...
复制链接

扫一扫