特征工程的相关概念与方法

相关

很多机器学习问题需要研究的对象时文字甚至图像,提取变量特征的方法是数据处理的前提。

BOW和VSM

BOW:bags-of-words model,忽略文档内的单词顺序和语法等要素,将其仅仅看作是若干的词汇的集合。
VSM:Vector space model,表示文本文档的数学模型,在BOW的假设下,将每个文档表示成同一向量空间的向量。
这里写图片描述
优化:
如果再出现一个长文档,将会有更多的零向量,可以采取的方法是,最后仅仅出现在一个文档中的都集中到一个向量中,减少维数。

停用词

Stop words,在信息检索中,为节省存储空间和提高处理效率,在处理自然语言文本之前或之后自动过滤掉的某些字或词。英文常用停用词:the,a,of,an,to,be,etc。

N-gram模型

N-gram通常是指一段文本或语音中连续N个项目(item)的序列,项目可以是单词、字母、碱基对等。
N=1,称为unigram;N=2,称为bigram;N=3,称为trigram。
这里写图片描述

Tf-idf词条权重计算

特征向量里高频词的权重更大,这些词在文集内其他文档里面也经常出现,对区分文档的作用不大,有必要抑制那些在很多文档中都出现了的词条的权重。
词条在文档d中的权值计算为:
w(t) = tf(t, d)* idf(t)
其中,tf(t, d)表示词条t在文档d中出现频率,idf(t)表示与包含词条t的文档数目成反比。
这里写图片描述
这里写图片描述

图片特征向量

这里写图片描述

使用sklearn库的digits手写字体数据集,并打印出来效果

from sklearn import datasets
import matplotlib.pyplot as plt
digits = datasets.load_digits()
#print(digits.keys())
#print(digits.images[0])
images_and_labels = list(zip(digits.images, digits.target))
for index, (image, label) in enumerate(images_and_labels[:4]):
    plt.subplot(2,4, index+1)
    plt.axis('off')
    plt.imshow(image, cmap = plt.cm.gray_r, interpolation='nearest')
    plt.title('Training: %i' % label)
定量特征的二值化

对于某些定量特征,需要将定量信息转为区间划分。如将考试成绩,转为及格或不及格。
方法:设定一个阈值,大于阈值的赋值为1,小于或等于阈值的赋值为0。

缺失值计算

数据获取时,由于某些原因,缺少某些数值,需要进行弥补;
弥补策略:默认为mean(均值)

举例,如将0作为缺失值
[0,4,2]
[2,3,4]
[8,0,0]
三列特征中,第一列均值为5,第二列为3.5,第三列为3
处理后
[5,4,2]
[2,3,4]
[8,3.5,3]
需要注意的是,在测试集中的每列特征的缺失值要用训练集的该列特征的均值弥补,而不能使用测试集的该列特征均值

创建多项式特征

这里写图片描述

More

这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《面向机器学习的特征工程pdf》是一本关于机器学习领域中特征工程的书籍。特征工程是机器学习中非常重要的一环,其涉及到从原始数据中提取有意义、有用的特征,并将其转化为机器学习算法可以接受的形式。 这本书的主要内容包括特征工程的基本概念、原理和方法,以及在实际应用中的具体实践。首先,书中介绍了特征工程的意义和作用,强调了良好的特征工程对机器学习模型性能的提升具有至关重要的作用。 接着,书中详细讲解了常用的特征选择和特征提取方法。特征选择是筛选出对目标变量有最大相关性的特征,以减少特征的维度和冗余性;而特征提取是从原始数据中抽取出最具代表性的特征,以提高模型的泛化能力。书中列举了一些常用的特征选择和特征提取方法,如方差选择、相关系数、主成分分析等,并提供了相应的算法原理和实例。 此外,书中还介绍了一些特征工程中常见的问题和挑战,如缺失值处理、异常值处理和特征缩放等。对于这些问题,书中给出了一些有效的解决策略和技巧,并提供了实际案例和代码示例,帮助读者理解和应用这些方法。 总的来说,《面向机器学习的特征工程pdf》是一本系统全面介绍机器学习中特征工程的书籍。它将理论和实践结合起来,通过丰富的案例和示例,帮助读者理解和掌握特征工程的基本原理和方法,并能够在实际应用中灵活运用。无论是初学者还是有一定经验的机器学习从业者,都可以从这本书中获得很多有价值的知识和经验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值