[机器学习速成课程] 嵌套 (Embeddings)：编程练习-学习笔记

最新推荐文章于 2021-07-30 10:47:32 发布

Yulong.Wang

最新推荐文章于 2021-07-30 10:47:32 发布

阅读量986

点赞数

分类专栏：学习笔记

本文链接：https://blog.csdn.net/qq_20039347/article/details/79736025

版权

本文介绍了使用嵌入技术处理稀疏数据进行情感分析的步骤，包括构建线性模型和深度神经网络（DNN）模型。在DNN模型中，嵌入层将数据投影到低维度空间，提高了模型效果。通过可视化嵌入，观察到词语在空间中的关系，以评估模型学习。实验发现，尽管DNN模型在某些条件下表现不优于线性模型，但嵌入技术对于提升模型复杂性和能力仍然有价值。

摘要由CSDN通过智能技术生成

稀疏数据和嵌入简介

学习目标：

将影评字符串数据转换为稀疏特征矢量
使用稀疏特征矢量实现情感分析线性模型
通过将数据投射到二维空间的嵌入来实现情感分析 DNN 模型
将嵌入可视化，以便查看模型学到的词语之间的关系

在此练习中，我们将探讨稀疏数据，并使用影评文本数据（来自 ACL 2011 IMDB 数据集）进行嵌入。这些数据已被处理成 tf.Example 格式。

（数据：

urls_pos.txt包含被判定为好评的评价；urls_neg.txt包含被判定为差评的评价；urls_unsep.txt包含既不是好评也不是差评的评价；

）

设置

我们导入依赖项并下载训练数据和测试数据。tf.keras 中包含一个文件下载和缓存工具，我们可以用它来检索数据集。

import math

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import tensorflow as tf
from IPython import display
from sklearn import metrics

tf.logging.set_verbosity(tf.logging.ERROR)
train_url = 'https://storage.googleapis.com/mledu-datasets/sparse-data-embedding/train.tfrecord'
train_path = tf.keras.utils.get_file(train_url.split('/')[-1], train_url)
test_url = 'https://storage.googleapis.com/mledu-datasets/sparse-data-embedding/test.tfrecord'
test_path = tf.keras.utils.get_file(test_url.split('/')[-1], test_url)

构建情感分析模型

我们根据这些数据训练一个情感分析模型，以预测(目的)某条评价总体上是好评（标签为 1）还是差评（标签为 0）。

为此，我们会使用词汇表（即我们预计将在数据中看到的每个术语的列表），将字符串值 terms转换为特征矢量。在本练习中，我们创建了侧重于一组有限术语的小型词汇表。其中的大多数术语明确表示是好评或差评，但有些只是因为有趣而被添加进来。

词汇表中的每个术语都与特征矢量中的一个坐标相对应。为了将样本的字符串值 terms 转换为这种矢量格式，我们按以下方式处理字符串值：如果该术语没有出现在样本字符串中，则坐标值将为 0；如果出现在样本字符串中，则值为 1。未出现在该词汇表中的样本中的术语将被弃用。

注意：我们当然可以使用更大的词汇表，而且有创建此类词汇表的专用工具。此外，我们可以添加少量的 OOV（未收录词汇）分桶，您可以在其中对词汇表中未包含的术语进行哈希处理，而不仅仅是弃用这些术语。我们还可以使用特征哈希法对每个术语进行哈希处理，而不是创建显式词汇表。这在实践中很有效，但却不具备可解读性（这对本练习非常实用）。如需了解处理此类词汇表的工具，请参阅 tf.feature_column 模块。