nltk处理文本并且统计标准化后的词频

最新推荐文章于 2024-06-06 19:14:59 发布

pyx1212

最新推荐文章于 2024-06-06 19:14:59 发布

阅读量168

点赞数 1

分类专栏： python 文章标签： python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38100666/article/details/126187403

版权

python 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

引用库文件：

import re
import nltk
import xlrd
from nltk import FreqDist
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import re
import json
from tqdm import tqdm

文本来源于一个xlsx文件中，先读取出文本：

workbook = xlrd.open_workbook("tweets_2.xlsx")
worksheet = workbook.sheet_by_index(0)
tweets = worksheet.col_values(4)[1:]

停用词集合：

stop = set(stopwords.words('english'))

统计文本中的词并标准化：

filter_tweets = []
fdists = []
ps = PorterStemmer()
for tweet in tqdm(tweets):
    #文本过滤
    filter_tweet = re.sub(r'[^a-zA-Z0-9\s]', '', string=tweet)
    #去除停用词
    filter_tweet = [word for word in filter_tweet.split(' ') if word not in stop]
    temp_tweet = []
    #标准化
    for w in filter_tweet:
        rootWord = ps.stem(w)
        temp_tweet.append(rootWord)
    filter_tweet = temp_tweet
    filter_tweets += filter_tweet

统计词频并从大到小排序：

fdist = FreqDist(filter_tweets)
sorted_fdist = sorted(fdist.items(), key=lambda x: x[1], reverse=True)

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nltk处理文本并且统计标准化后的词频

nltk处理文本并且统计标准化后的词频
复制链接

扫一扫

专栏目录

pyx1212 CSDN认证博客专家 CSDN认证企业博客

码龄7年

30: 原创

52万+: 周排名

23万+: 总排名

6万+: 访问

: 等级

348: 积分

507: 粉丝

35: 获赞

14: 评论

105: 收藏

私信

关注

热门文章

分类专栏

最新评论

pytorch中scatter函数的用法
hey bro`: 最后结果都不对，别误导人了，快点删帖
Dataloader中pin_memory参数的使用及注意事项
纵风弄云真君: 在PyTorch中，当pin_memory参数设置为True时，数据加载器（DataLoader）会将从数据集加载的数据存储在内存中的固定页（pinned memory）中，而不是普通的内存中。这样做的主要目的是为了加速数据传输，尤其是在数据加载到GPU之前的数据传输过程中。具体来说，当pin_memory设置为True时，数据加载器会将数据加载到固定页中，而GPU可以直接访问固定页中的数据，而不需要经过额外的数据拷贝操作。这样可以减少数据从主机内存到GPU显存的拷贝次数，从而减少数据传输的时间，提高训练过程中数据加载的效率。总的来说，通过将数据加载到固定页中，可以减少数据传输过程中的额外开销，提高数据加载的效率，从而在一定程度上加快训练速度。特别是在数据加载操作相对耗时的情况下，设置pin_memory为True可以更好地利用硬件资源，提高训练效率。 AI回答的，人家博主倒是没说反，就是不是很清楚，普通人不会知道CPU内存还有什么固定页吧
Dataloader中pin_memory参数的使用及注意事项
weixin_50596351: 确实离谱
pytorch中scatter函数的用法
zhangx1984: 第五步得到的结果根本就不对，正确的应该是 tensor([[ 1., 14., 11., 8.], [ 5., 2., 15., 12.], [ 9., 6., 3., 16.], [13., 10., 7., 4.]], dtype=torch.float64)
pytorch中scatter函数的用法
pyx1212: 奥是的，已改~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。