（NLP）自然语言处理学习笔记1 NLTK在使用总结

最新推荐文章于 2024-07-18 12:57:54 发布

千语_肉丸子

最新推荐文章于 2024-07-18 12:57:54 发布

阅读量502

点赞数

分类专栏：自然语言处理文章标签：数据挖掘自然语言处理 NLTK

本文链接：https://blog.csdn.net/u012535605/article/details/77650049

版权

NLTK 有着整套自然语言处理的工具，从分词到实体识别，从情感分类到句法分析，完整而丰富，功能强大。

但是分词功能仅适用于英文，对于中文分词还需要专门的中文分词工具包处理。因此本例使用结巴分词

import pandas as pd
import jieba
df = pd.read_csv('bad_cmmnt_detl.csv')
df.shape

#查看数据集的维度

df.shape

Out[87]:(8813, 2)

利用结巴进行中文分词

def cutword(x):
    seg = jieba.cut(x)
    return ' '.join(seg)

df['cut_word']=df.cntnt.apply(cutword)

由分好词的句子生成词典

text = df['cut_word'].values
textnltk = []
for sent in text:
    temp = [w for w in sent.split()]
    textnltk.extend(temp)

#利用set(txtnltk)可以看到词典的实际单词个数

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

千语_肉丸子

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（NLP）自然语言处理学习笔记1 NLTK在使用总结

NLTK 有着整套自然语言处理的工具，从分词到实体识别，从情感分类到句法分析，完整而丰富，功能强大。但是分词功能仅适用于英文，对于中文分词还需要专门的中文分词工具包处理。因此本例使用结巴分词import pandas as pdimport jiebadf = pd.read_csv('bad_cmmnt_detl.csv')df.shape#查看数据集的维度df.shapeOu...
复制链接

扫一扫