The Elements of Statistical Learning_2nd_Trevor Hastie_2009笔记

最新推荐文章于 2021-01-01 23:40:24 发布

weixin_30795127

最新推荐文章于 2021-01-01 23:40:24 发布

阅读量137

点赞数

原文链接：http://www.cnblogs.com/xkchi/p/11497923.html

版权

1 Introduction 介绍

第一章以垃圾邮件分类、前列腺癌预测、手写数字识别、DNA表达四个例子来介绍了机器学习应用。

2 Overview of Superived Learning 监督学习综述

2.1 Introduction 介绍

第一章中描述的前三个例子有几个共同点。对于每个变量，都有一组变量可以表示为输入，这些变量是测量的或预置的。这些测量或预置的变量对一个或多个输出有一些影响。对于每个示例，目标是使用输入来预测输出的值。这项练习被称为监督学习。

在统计学中输入常被称为预测变量,有一个术语我们将与输入交换使用，更为经典的称为自变量。

（输入=预测变量=自变量）

2.2 Variable Types and Terminology 变量类型和术语

划线非论文内容

数值型变量，在学术上被称为定量变量（quantitative variable），如长度、收入、重量等。它们的数值表示具体的测量或计数。事实上，定量变量按是否连续可进一步细分为连续型变量和离散型变量。在一定区间内可以任意取值的变量叫连续型变量，比如人的身高、体重等；反之则是离散型变量，比如公司员工人数等。

类别型变量，也被称为定性变量（categorical variable）。比如性别、省份、学历、产品等级等。这类变量的取值通常是用文字而非数字来表示。比如对于性别这个变量，可能的取值为男、女。因此要将文字变量转换为数字变量，并且保证对于转换之后的变量，数学运算是有意义的，这并不是一件容易的事情。通常针对一个类别型变量，我们会用一个数字去表示其中的一个类别，但这样的转换方法并不能满足要求：

对于有序的类别型变量，比如产品等级，0表示合格、1表示良好、2表示优秀。这种情况下，0小于1的确对应着合格等级次于良好等级，但数字间的四则运算就没有对应意义了。数学上2减1等于1，但对于产品等级，优秀减去良好还等于良好吗？
对于无序的类别型变量，比如对于省份，0表示北京、1表示上海、2表示深圳等。数字间的大小关系和四则运算都是没有实际意义的。

对于定性变量，常见的处理方法有两种：一种是将定性变量转换为多个虚拟变量（dummy variable），另一种对将有序的定性变量转换为定量变量。

正如前文中讨论的，直接对定性变量数字编码，得到的变量将无法进行有意义的数学运算。那么，相应的解决方法就是使得变换之后的变量不能直接做数学运算。

前面讨论的虚拟变量的方法是比较通用的处理方法。但这种方法有一个很明显的缺点：每个虚拟变量都是0或1，无法提供更多的信息。特别是对于多个有序的定性变量，这会损失掉每个定性变量本身的顺序信息和定性变量间的关联信息。为了解决这个问题，常常根据类别的顺序，将定性变量转换为定量变量。
————————————————
版权声明：本文为CSDN博主「Rookiekk」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_18888869/article/details/86495576

定性变量也被称为范畴变量或离散变量以及因素。
对于两种类型的输出，考虑到用输入来预测输出是有意义的。给出今天或昨天的大气测量值，我们希望预测明天的臭氧水平。给定手写数字的数字化图像像素的灰度值，我们希望预测它的类标签。
输出类型的这种区别导致了预测任务的命名约定：我们预测定量输出我们称为回归，预测定性输出时我们称为分类。
输入在测量类型上也是不同的；（本段在讲有一些输入时定性的有一些是定量的，有些模型适合定量的，有些更适合定性，有些都适合）
第三类变量是排序分类的，例如小、中、大，这些值之间存在排序，但是没有度量概念。（大与中之间的差别是不同于中与小之间的差别的）
定性变量通常用代码表示。最简单的情况是只有两个类别或类别，如“成功”或“失败”、“幸存”或“死亡”。这些代码通常由单个二进制数字或位表示为0或1，或者由−1和1表示。由于会变得明显的原因，这种数字代码有时被称为目标。当有两个以上的类别时，就有几个备选方案可供选择。最有用和最常用的编码是通过虚拟变量进行的。虽然可以使用更紧凑的编码方案，但虚拟变量在因子的级别上是对称的。
通常将输入变量表示为如果是一个向量，可以由表示其组成。（X={X1，X2，...X_j}）。定量输出被标记为Y，定性输出被标记为G。我们用大写字母，例如X，Y，G来表示变量的一般情况。观测值用小写，X的第一个观测值写为x_i，x_i既为标量又为向量。矩阵用大写粗体表示。通常向量不会用粗体，除非它有N个分量。（后面一个讲向量转置）。