google机器学习框架tensorflow学习笔记（十一）

最新推荐文章于 2024-08-03 21:01:38 发布

_Celeste_

最新推荐文章于 2024-08-03 21:01:38 发布

阅读量272

点赞数

文章标签：机器学习 tensorflow

表示 (Representation)

机器学习模型不能直接看到、听到或感知输入样本。您必须创建数据表示，为模型提供有用的信号来了解数据的关键特性。也就是说，为了训练模型，您必须选择最能代表数据的特征集。从原始数据中提取特征的过程称为特征工程。实践中，机器学习从业人员大约将75%的时间花在特征工程上面，特征就是我们要的东西。传统编程的关注点是代码。在机器学习项目中，关注点变成了表示。也就是说，开发者通过添加和改善特征来调整模型。

将原始数据映射到特征

图 1 左侧表示来自输入数据源的原始数据，右侧表示 特征矢量 ，也就是组成数据集中样本的浮点值集。 特征工程 指的是将原始数据转换为特征矢量。进行特征工程预计需要大量时间。

机器学习模型通常期望样本表示为实数矢量。这种矢量的构建方法如下：为每个字段衍生特征，然后将它们全部连接到一起。

图 1. 程序工程将原始数据映射到机器学习特征。

映射数值

机器学习模型根据浮点值进行训练，因此整数和浮点原始数据不需要特殊编码。正如图 2 所示，将原始整数值 6 转换为特征值 6.0 是没有意义的：

映射字符串值

模型无法通过字符串值学习规律，因此您需要进行一些特征工程来将这些值转换为数字形式：

首先，为您要表示的所有特征的字符串值定义一个词汇表。对于 street_name 特征，该词汇表中将包含您知道的所有街道。
注意：所有其他街道都可以归入一个笼统的“其他”类别，该类别称为 OOV（未收录到词汇表中）桶。
然后，使用该词汇表创建一个独热编码，用于将指定字符串值表示为二元矢量。在该矢量（与指定的字符串值对应）中：
- 只有一个元素设为 1。
- 其他所有元素均设为 0。
该矢量的长度等于词汇表中的元素数。

图 3 显示了某条特定街道 (Shorebird Way) 的独热编码。在此二元矢量中，代表 Shorebird Way 的元素的值为 1，而代表所有其他街道的元素的值为 0。

图 3. 通过独热编码映射字符串值。

映射分类（枚举）值

分类特征具有一组离散的可能值。例如，名为 Lowland Countries 的特征只包含 3 个可能值：

{'Netherlands', 'Belgium', 'Luxembourg'}

您可能会将分类特征（如 Lowland Countries）编码为枚举类型或表示不同值的整数离散集。例如：

将荷兰表示为 0
将比利时表示为 1
将卢森堡表示为 2

不过，机器学习模型通常将每个分类特征表示为单独的布尔值。例如，Lowland Countries 在模型中可以表示为 3 个单独的布尔值特征：

x₁：是荷兰吗？
x₂：是比利时吗？
x₃：是卢森堡吗？

采用这种方法编码还可以简化某个值可能属于多个分类这种情况（例如，“与法国接壤”对于比利时和卢森堡来说都是 True）。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
google机器学习框架tensorflow学习笔记（十一）

表示 (Representation)机器学习模型不能直接看到、听到或感知输入样本。您必须创建数据表示，为模型提供有用的信号来了解数据的关键特性。也就是说，为了训练模型，您必须选择最能代表数据的特征集。从原始数据中提取特征的过程称为特征工程。实践中，机器学习从业人员大约将75%的时间花在特征工程上面，特征就是我们要的东西。传统编程的关注点是代码。在机器学习项目中，关注点变成了表示。也就是说，开发者...
复制链接

扫一扫

_Celeste_ CSDN认证博客专家 CSDN认证企业博客

码龄7年

31: 原创

7万+: 周排名

167万+: 总排名

16万+: 访问

: 等级

1776: 积分

130: 粉丝

305: 获赞

69: 评论

1286: 收藏

私信

关注

热门文章

分类专栏

Linux 10篇

最新评论

Pytorch之DataLoader的num_works参数设置
Mr_RenpinKing: 放了，依然报错
MMSE (Minimum Mean Square Error)均衡原理讲解
小鸟探戈: 倒数第三步括号里的P可以从中间提到外面的前提是它是个常数，或者说H和H转置中间是个对角线元素都相等的对角阵。而由于P表示的是每条流发送信号的功率，这个假设是显然成立的
MMSE (Minimum Mean Square Error)均衡原理讲解
小鸟探戈: y和e是向量，无关的数学表征就是两个向量内积为0，不转置两个向量怎么乘？
RS编码过程通俗理解
萧: 信息多项式除以生成多项式也不是普通的多项式除法而是伽罗瓦域除法这么理解对吧那么有这类计算器吗？
RS编码过程通俗理解
萧: 谢谢！找到了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。