机器学习笔记

最新推荐文章于 2024-08-30 12:54:54 发布

jinnaluo0

最新推荐文章于 2024-08-30 12:54:54 发布

阅读量142

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/jinnaluo0/article/details/106504785

版权

本文试图用一个简单的案例来描述机器学习的各种术语。个人认为机器学习入门未必有多难，但这些术语常令人不明觉厉，也让人望而却步。

案例一：某程序能够根据人员信息计算该人的信用等级。该程序根据已有的100万个申请记录【年龄、性别、年收入、学历、房产、信用级别】进行复杂的数学运算，得出一套运算规则，该规则对【年龄、性别、年收入、学历、房产】这些数据项进行加权计算，形成分数，并根据分数得出信用级别【不合格、银卡、金卡】。有了这套规则，只需要输入某用户的相应信息，就能知道是否可以办理信用卡了。

100万个申请记录被称为样本（或训练样本，或训练集，或样本集）
年龄（或性别、学历等）这些数据项被称为样本的特征（或样本的属性）
年龄、性别、年收入、学历、房产等多个特征放在一起称为特征向量
得分高60分为合格，60被称为阈值
年收入是数值型变量，而性别是标称型变量(也就是枚举变量，叫枚举不好听吗？为什么搞出那么多新名词？)
信用级别被称为目标变量（预测结果）。目标变量如果是标称型变量也被称为类别，因为这套算法的主要内容就是分类（或模式识别）（判断人属于哪一类)。目标变量如果是数值型变量，这样的案例被称为回归
规则形成后，还需要准备1万条测试数据，用于测试这套规则是否准确（实际上，不可能100%准确，所以要得到的是精确度）
算法精确度已经满足要求后，常常还需要用人类的语言描述计算过程，例如有房产+10分，本科+5分，硕士+8分等等。用人类的语言描述计算过程叫做知识表示，有些知识表示是规则集，有些是概率分布，有些则很难用人类语言来描述。
这套规则可以称为信用评估专家，它能像一个经验丰富的专家一样做出准确的判断，所以机器学习的软件被称为专家系统
案例有很明确的目标（本例的目标是计算信用级别），这样的案例属于监督学习。某些案例没有明确的计算目标（例如 ...待补充），则被称为非监督学习
这套程序就是机器学习程序，其中对100万个申请记录的分析过程也被称为训练

案例二：鸟类学家在各地安装了一万个喂食器，并通过传感器采集下表所示信息(大约1万条)，再用机器学习程序自动确定鸟的种属。请根据上述知识，脑补一下在本例中什么是样本、特征、类别以及本例属于哪类机器学习？

序号	体重（克）	翼展（厘米）	脚蹼	后背颜色	种属
1	1000.1	125.0	无	棕色	红尾鵟
2	3000.7	200.0	无	灰色	鹭鹰
3	3300.0	220.3	无	灰色	鹭鹰
4	4100.0	136.0	有	黑色	普通潜鸟

案例一描述并不准确，形成运算规则并不一定要采用加权计算的方式，事实上，针对不目的问题需要采用不同的算法：

监督学习
- 分类
  - 分类器算法（待补充）
- 回归
  - 回归算法（待补充）
非监督学习
- 聚类算法
- 密度估计算法

待补充......

jinnaluo0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记

模式识别机器学习深度学习，这是机器学习的三个层次，模式识别较为古旧，机器学习正当时，深度学习还在摸索中。为什么要用机器学习，用传统的编程解决问题不好吗？机器学习的应用场合大致可归纳为三个条件：事物本身存在某种潜在规律某些问题难以使用普通编程解决有大量的数据样本可供使用与机器学习相关的领域有：数据挖掘（Data Mining）人工智能（Artificial Intelligence）统计（Statistics）机...
复制链接

扫一扫