nlp 笔记

最新推荐文章于 2024-08-27 15:52:35 发布

不要怂，就是干

最新推荐文章于 2024-08-27 15:52:35 发布

阅读量175

点赞数

分类专栏： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42013825/article/details/107741089

版权

这篇笔记介绍了如何在假新闻项目中进行文本处理，包括合并分词新闻、构建词典并将标题转换为数字。重点讲述了使用Keras的文字处理模块，特别是如何限制词典大小并进行one-hot编码，从而提高效率。

摘要由CSDN通过智能技术生成

在进行假新闻项目时候。

1、需要合并A、B两个已经分词的两个新闻。

2、建立一个空字典。

3、查看所有新闻标题，头部没出现一个字典里面没有的词典，就应该为词典指定一个字典里面没有出现索引的数字，并放入词典。

4、利用建立好的词典，将每个新闻标题里头的词典转换成数字。
text = '狐狸被陌生人拍照'
words = pseg.cut(text)
words = [w for w, f in words]
words
['狐狸', '被', '陌生人', '拍照']
建立词典。word_index

将dict 里头将上面的4个词典当作键，每个健对应值（value）则为不重复的数字。
word_index = {
    word: idx  
    for idx, word in enumerate(words)
}
word_index
{'狐狸': 0, '被': 1, '陌生人': 2, '拍照': 3}
print(words)
print([word_index[w] for w in words])
['狐狸', '被', '陌生人', '拍照']
[0, 1, 2, 3]
现在来个陌生的句子‘陌生人被狐狸拍照’
text = '陌生人

最低0.47元/天解锁文章

不要怂，就是干

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。