李宏毅的机器学习作业4


作业所需数据 akti
作业参考答案

作业任务

本次作业是一个文本情感分析,训练文件中的句子被标记为“1”或“0”,分别对应句子的情感色彩是“负面”与“正面”。

给出的训练文本
我们的任务就是训练出一个模型,从而能对"testing_data.txt"中的句子判断是0还是1。

数据处理

与图像不同,文本在深度学习中的输入方法不是唯一的,因为文本语言是非结构化的,而要将其输入到神经网络中,我们就需要赋予其一定的结构,其中最朴素的思想便是将每一个词作为特征,而基于这种思想有两种方法。

one-hot

第一种称为“独热编码”one-hot,其思想是把出现过的词构建一个词典,每一个词转编成一个一维向量,向量的长度与词典中词的个数一致。每个词在向量中位置不同,它的对应向量就是对应位置为“1”,其余为“0”。例如“我爱人工智能”这一句,一共三个词“我”,“爱”,“人工智能”,如果这三个词组成词典,其对应的独热编码分别就是:
”我“:[1,0,0]
”爱“:[0,1,0]
人工智能":[0,0,1]
而每句话用独热表示就是把出现的词的对应编码加起来,例如”我爱我“,就是[2,1,0]。

one-hot的思想很简单,实现起来也不难,但是有很多问题,当涉及到的单词很多时,词典会变得超大,动辄几千上万维,而每个样本的特征向量也会变得极其稀疏,对于神经网络来说,这样的数据很不适合用来训练。此外独热编码会忽略词的含义,相同的含义的词语被当作两个词,如”我“和”俺“。

word-embedding

word-embedding,中文叫词向量,也叫词嵌入。实质就是将单词编码成低维实数向量。(专业的说法是将单词映射到一个低维空间,就像一个嵌入的过程,因此叫word-embedding)。词向量的维度一般会控制在几百维以内。词向量能够反映出各个词之间的关系紧密程度,当两个词的关系较紧密,它们的词向量在向量空间上就会很小的夹角

词向量除了在语义上相近会被编码到邻近的区域,还应该支持简单的语义运算,将语义运算映射为向量运算。比如:
“中国”+“首都”=“北京”;
“王子”-“公主”=“男”-“女“;
在这里插入图片描述

word2vec

在本此作业中,要将给定的文本转换成词向量,转换的方法便是使用word2vec

word2vec又叫word to vector是一个将单词转换成向量形式的工具。其本身是一个简单神经网络,作用是根据输入的上下文来预测的空缺的句子。在训练的过程中,会得到训练的“副产品”——我们的词向量。

参考答案使用了gensim库中的word2vec模型,使用模型直接训练,我们所需要的“词向量”便直接存储在模型中。

下面是对代码的说明

从给定的txt文件中读取数据,把特征与标签取出,存入xy

def load_training_data(path='training_label.txt'):
    # 把training時需要的data讀進來
    # 如果是'training_label.txt',需要讀取label,如果是'training_nolabel.txt',不需要讀取label
    if 'training_label' in path:
        with open(path, 'r') as f:
            lines = f.readlines()
            lines = [line.strip('\n').split(' ') for line in lines]
        x = [line[2:] for line in lines]
        y = [line[0] for line in lines]
        return x, y
    else:
        with open(path, 'r') as f:
            lines = f.readlines()
            x = [line.strip('\n').split(' ') for line in lines]
        return x
        
def load_testing_data(path='testing_data'):
    # 把testing時需要的data讀進來
    with open(path, 'r') as f:
        lines = f.readlines()
        X = ["".join(line.strip('\n').split(",")[1:]).strip() for line in lines[1:]]
        X = [sen.split(' ') for sen in X]
    return X

x输入到word2vec训练,为得到词向量准备。

import os
import numpy as np
import pandas as pd
import argparse
from gensim.models import word2vec

def train_word2vec(x):
    # 訓練word to vector 的 word embedding
    model = word2vec.Word2Vec(x, size=250, window=5, min_count=5, workers=12, iter=10, sg=1)
    return model

if __name__ == "__main__":
    print("loading training data ...")
    train_x, y = load_training_data('training_label.txt')
    train_x_no_label = load_training_data('training_nolabel.txt')

    print
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值