【科学计算与数学建模】词嵌入模型

最新推荐文章于 2024-10-05 13:41:03 发布

草堂春睡足

最新推荐文章于 2024-10-05 13:41:03 发布

阅读量871

点赞数 30

分类专栏：科学计算与数学建模文章标签：数学建模

本文链接：https://blog.csdn.net/hisser/article/details/136854193

版权

科学计算与数学建模专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一、one-hot 编码

任务描述

本关任务：简单掌握文本转 one-hot 编码操作。

编程要求

根据提示，在右侧编辑器补充代码。

给上述samples列表新增一个元素‘a panda is sleeping’
自行完成单词级别的分词任务，并查看索引字典和样本列表的第二个元素的第二个单词的编码情况。（注意索引是0开始）
创建字符级 one-hot 编码索引字典，查看第三个元素中的第三个字符的编码情况

测试说明

平台会对你编写的代码进行测试。

开始你的任务吧，祝你成功！

代码部分

import numpy as np
import string
from keras.preprocessing.text import Tokenizer

"""
单词级的 one-hot 编码
"""
def word_one_hot(samples):
    # x,y表示显示的第x个元素的第y个单词

    # 构建数据中所有标记的索引，用一个字典来存储
    token_index = {}
    for sample in samples:
        ########## Begin ##########
        # 利用split方法对样本进行分词.
        for word in sample.split():
            if word not in token_index:
                #为每个唯一单词指定一个唯一索引
                token_index[word] = len(token_index)
                #没有为索引编号0指定单词

        ########## End ##########

    # 只考虑样本前max_length个单词
    max_length = 10

    #结果返回给results:
    results = np.zeros((len(samples), max_length, max(token_index.values())+1))
    for i, sample in enumerate(samples):
        for j, word in list(enumerate(sample.split()))[:max_length]:
            index = token_index.get(word)        
            #唯一的元素为1
            results[i, j, index] = 1

    ########## Begin ##########
    # 查看索引字典和样本列表的第二个元素的第二个单词的编码情况
    # print(token_index) 
    print(results[1,1])
    ########## End ##########



"""
字符级的one-hot编码
"""
def char_one_hot(samples):
    # x,y表示显示的第x个元素的第y个字符

    # 可以打印的ASCII字符
    characters = string.printable  
    
    ########## Begin ##########
    #创建索引字典
    token_index = dict(zip(characters, range(0, len(characters) )))
    #为所有可能打印的字符创建一个字典
    max_length = 50
    results = np.zeros((len(samples), max_length, max(token_index.values())+1 ))

    ########## End ##########

    for i, sample in enumerate(samples):
        for j, character in list(enumerate(sample[:max_length])):
            index = token_index.get(character)
            results[i, j, index] = 1.
            
    ########## Begin ##########
    # 查看索引字典和样本列表的第三个元素的第三个单词的编码情况
    # print(token_index)#查看索引字典
    ###################
   
    print(results[2,2])#样本列表的第3个元素的第3个字符编码情况
    ########## End ##########



########## Begin ##########
# 给 samples 列表新增一个元素‘a panda is sleeping’
samples = ['The cat sat on the mat.',
           'The dog ate my homework.',
           'a panda is sleeping.'
           ]



#创建一个分词器
# 只考虑前1000个最常见的单词
tokenizer = Tokenizer(num_words=1000)
# 构建单词索引
tokenizer.fit_on_texts(samples)
# 将字符串转换为整数索引的组成的列表
sequences = tokenizer.texts_to_sequences(samples)
# 可以直接得到one-hot编码二进制表示
# 分词器也支持除one-hot编码外的其他向量化模式
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')


########## End ##########

word_one_hot(samples)

char_one_hot(samples)

"""
用keras实现单词级的one-hot编码
"""
tokenizer = Tokenizer(num_words=1000)
tokenizer.fit_on_texts(samples)

word_index = tokenizer.word_index
print(word_index)

二、词嵌入模型