The Elements of Statistical Learning_2nd_Trevor Hastie_2009笔记

1 Introduction 介绍

第一章以垃圾邮件分类、前列腺癌预测、手写数字识别、DNA表达四个例子来介绍了机器学习应用。

2 Overview of Superived Learning 监督学习综述

2.1 Introduction 介绍

第一章中描述的前三个例子有几个共同点。对于每个变量,都有一组变量可以表示为输入,这些变量是测量的或预置的。这些测量或预置的变量对一个或多个输出有一些影响。对于每个示例,目标是使用输入来预测输出的值。这项练习被称为监督学习。

在统计学中输入常被称为预测变量,有一个术语我们将与输入交换使用,更为经典的称为自变量。

(输入=预测变量=自变量)

2.2 Variable Types and Terminology 变量类型和术语

划线非论文内容

数值型变量,在学术上被称为定量变量(quantitative variable),如长度、收入、重量等。它们的数值表示具体的测量或计数。事实上,定量变量按是否连续可进一步细分为连续型变量和离散型变量。在一定区间内可以任意取值的变量叫连续型变量,比如人的身高、体重等;反之则是离散型变量,比如公司员工人数等。

类别型变量,也被称为定性变量(categorical variable)。比如性别、省份、学历、产品等级等。这类变量的取值通常是用文字而非数字来表示。比如对于性别这个变量,可能的取值为男、女。因此要将文字变量转换为数字变量,并且保证对于转换之后的变量,数学运算是有意义的,这并不是一件容易的事情。通常针对一个类别型变量,我们会用一个数字去表示其中的一个类别,但这样的转换方法并不能满足要求:

对于有序的类别型变量,比如产品等级,0表示合格、1表示良好、2表示优秀。这种情况下,0小于1的确对应着合格等级次于良好等级,但数字间的四则运算就没有对应意义了。数学上2减1等于1,但对于产品等级,优秀减去良好还等于良好吗?
对于无序的类别型变量,比如对于省份,0表示北京、1表示上海、2表示深圳等。数字间的大小关系和四则运算都是没有实际意义的。

对于定性变量,常见的处理方法有两种:一种是将定性变量转换为多个虚拟变量(dummy variable),另一种对将有序的定性变量转换为定量变量。

正如前文中讨论的,直接对定性变量数字编码,得到的变量将无法进行有意义的数学运算。那么,相应的解决方法就是使得变换之后的变量不能直接做数学运算。

前面讨论的虚拟变量的方法是比较通用的处理方法。但这种方法有一个很明显的缺点:每个虚拟变量都是0或1,无法提供更多的信息。特别是对于多个有序的定性变量,这会损失掉每个定性变量本身的顺序信息和定性变量间的关联信息。为了解决这个问题,常常根据类别的顺序,将定性变量转换为定量变量。
————————————————
版权声明:本文为CSDN博主「Rookiekk」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_18888869/article/details/86495576

 

  • 定性变量也被称为范畴变量或离散变量以及因素。
  • 对于两种类型的输出,考虑到用输入来预测输出是有意义的。给出今天或昨天的大气测量值,我们希望预测明天的臭氧水平。给定手写数字的数字化图像像素的灰度值,我们希望预测它的类标签。
  • 输出类型的这种区别导致了预测任务的命名约定:我们预测定量输出我们称为回归,预测定性输出时我们称为分类。
  • 输入在测量类型上也是不同的;(本段在讲有一些输入时定性的有一些是定量的,有些模型适合定量的,有些更适合定性,有些都适合)
  • 第三类变量是排序分类的,例如小、中、大,这些值之间存在排序,但是没有度量概念。(大与中之间的差别是不同于中与小之间的差别的)
  • 定性变量通常用代码表示。最简单的情况是只有两个类别或类别,如“成功”或“失败”、“幸存”或“死亡”。这些代码通常由单个二进制数字或位表示为0或1,或者由−1和1表示。由于会变得明显的原因,这种数字代码有时被称为目标。当有两个以上的类别时,就有几个备选方案可供选择。最有用和最常用的编码是通过虚拟变量进行的。虽然可以使用更紧凑的编码方案,但虚拟变量在因子的级别上是对称的。
  • 通常将输入变量表示为如果是一个向量,可以由表示其组成。(X={X1,X2,...Xj})。定量输出被标记为Y,定性输出被标记为G。我们用大写字母,例如X,Y,G来表示变量的一般情况。观测值用小写,X的第一个观测值写为xi,xi既为标量又为向量。矩阵用大写粗体表示。通常向量不会用粗体,除非它有N个分量。(后面一个讲向量转置) 。

 

 

(待更新。。。。)

 

转载于:https://www.cnblogs.com/xkchi/p/11497923.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值