Python自然语言处理—统计词频

最新推荐文章于 2024-04-10 23:11:57 发布

午匀需

最新推荐文章于 2024-04-10 23:11:57 发布

阅读量4.4k

点赞数 2

分类专栏： Python-自然语言处理文章标签：自然语言处理 NLTK 中文

本文链接：https://blog.csdn.net/m0_38126215/article/details/83582697

版权

一数据的预处理

本文所有的例子我都将使用中文文本进行，所以在分析前需要对中文的文本进行一个预处理的过程（暂时只用的分词，去除停用词的部分后面介绍）

# -*- coding:utf-8 -*-
from nltk import FreqDist
import jieba
import pymssql

# 我的数据来源于数据库，用的是爬虫的小学数学题
conndb = pymssql.connect(host=".", user="**", password="****", database="JD")
cursor = conndb.cursor()
cursor.execute("SELECT TOP 2000 [题目] FROM [JD].[dbo].[题库]")
rows = cursor.fetchall()


#将200道题目中文分词后，并放到一个List中
text = []
for line in rows:
    content = list(jieba.cut(line[0]))
    for word in content:
        text.append(word)

结果如下图所示，可以看到有很多标点符号和单个无意义数字

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

午匀需

关注关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Python自然语言处理—统计词频

一数据的预处理本文所有的例子我都将使用中文文本进行，所以在分析前需要对中文的文本进行一个预处理的过程（暂时只用的分词，去除停用词的部分后面介绍）# -*- coding:utf-8 -*-from nltk import FreqDistimport jiebaimport pymssql# 我的数据来源于数据库，用的是爬虫的小学数学题conndb = pymssql.co...
复制链接

扫一扫