NLP----------one-hot编码

在python中需要那个包,用pip就可以直接导,但是用官网提供的pip导包格式下载比较慢,所以建议在pip后面加上镜像
例如:

pip install 包名 -i https://pypi.tuna.tsinghua.edu.cn/simple/ --trusted-host pypi.tuna.tsinghua.edu.cn

我在提供国内几个镜像链接:

清华:https://pypi.tuna.tsinghua.edu.cn/simple
阿里云:http://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学:http://pypi.hustunique.com/
山东理工大学:http://pypi.sdutlinux.org/ 
豆瓣:http://pypi.douban.com/simple/
from sklearn.externals import joblib
from keras.preprocessing.text import Tokenizer
"""
文本张量:将一段文本使用张量表示,其中一般将词汇表示为向量,称为词向量
        再将各个词向量按顺序组成矩阵形成文本表示
举个例子:
    ["人生", "该", "如何", "起头"]
    每个词对应矩阵中的一个向量
    [[1.32, 4,32, 0,32, 5.2],
    [3.1, 5.43, 0.34, 3.2],
    [3.21, 5.32, 2, 4.32],
    [2.54, 7.32, 5.12, 9.54]]
作用:将文本表示成张量(矩阵)形式,能够使语言文本可以作为计算程序的输入,进行接下来一系列的解析工作
"""
"""
文本张量表示的方法:
1、one-hot编码
2、Word2vec
3、Word Embedding
"""
# one-hot词向量表示
# 又称独热编码,将每个词表示成具有n个元素的向量,这个词向量种只有一个元素是1,其他元素都是0
# 不同词汇元素为0的位置不同,其中n的大小是整个词料中不同词汇的总数


# 假定vocab为语料集所有不同词汇集合
vocad = {"李云龙", "和尚", "楚云飞", "亮剑", "赵刚", "秀琴"}
# 实例化一个词汇映射器对象
t = Tokenizer(num_words = None,char_level = False)
# 使用映射器拟合现有文本数据
t.fit_on_texts(vocad)

for token in vocad:
    zero_list = [0] * len(vocad)
    # 使用映射器转化现有文本数据,每个词汇对应从1开始的自然数
    # 返回样式如:[[2]],取出其中的数字需要使用[0][0]
    token_index= t.texts_to_sequences([token])[0][0] - 1
    zero_list[token_index] = 1
    print(token,"的one-hot编码为:",zero_list)
# 使用joblib工具保存映射器,以便之后使用  这会存储时一定要存入自建的空文件中
tokenizer_path = '/root/cheliting/0218-2081/noee'
joblib.dump(t,tokenizer_path)


# 加载之前保存的tokenizer,实例化一个对象
tt = joblib.load(tokenizer_path)
# 编码token为李云龙
str_name = "李云龙"
# 使用tt获得token_index
token_index = tt.text_to_sequences([str_name])[0][0] - 1
# 初始化一个zero_list
zero_list= [0]*len(vocad)
# 令zero_list的对应索引为1
zero_list[token_index] =1
print(str_name, "的one-hot编码为:", zero_list)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值