在进行假新闻项目时候。
1、需要合并A、B两个已经分词的 两个新闻。
2、建立一个空字典。
3、查看所有新闻标题,头部没出现一个字典里面没有的词典,就应该为词典指定一个字典里面没有出现索引的数字,并放入词典。
4、利用建立好的词典,将每个新闻标题里头的词典转换成数字。
text = '狐狸被陌生人拍照' words = pseg.cut(text) words = [w for w, f in words] words
['狐狸', '被', '陌生人', '拍照']建立词典。word_index
将dict 里头将上面的4个词典当作键,每个健对应值(value)则为不重复的数字。
word_index = { word: idx for idx, word in enumerate(words) } word_index
{'狐狸': 0, '被': 1, '陌生人': 2, '拍照': 3}print(words) print([word_index[w] for w in words])
['狐狸', '被', '陌生人', '拍照'] [0, 1, 2, 3]现在来个陌生的句子‘陌生人被狐狸拍照’
text = '陌生人
nlp 笔记
最新推荐文章于 2024-08-27 15:52:35 发布
这篇笔记介绍了如何在假新闻项目中进行文本处理,包括合并分词新闻、构建词典并将标题转换为数字。重点讲述了使用Keras的文字处理模块,特别是如何限制词典大小并进行one-hot编码,从而提高效率。
摘要由CSDN通过智能技术生成