NLP_统计词频

import pandas as pd
import jieba
test=pd.DataFrame({'text':['我想用CNN做个情感分析,这个语句是我喜欢的',
                           '哈哈哈,万年刮痧王李白终于加强了',
                           '这个游戏好极了,个别英雄强度超标,游戏里面英雄种类丰富,我太菜,求大佬带飞',
                           '我觉得是个好游戏',
                           '这个模型准确度好垃圾,我不喜欢',
                           '王者必糊,小学生没防到,还把一群初中生,什么时候没人脸识别,什么时候回归',
                           '快去吧健康系统去掉,不然举报',
                           '垃圾mht,还要人脸识别微信',
                           '那些没脑子玩家就别下载了',
                          ],
                  'label':[1, 1, 1, 1, 0, 0, 0, 0, 0]})
test.head()
textlabel
0我想用CNN做个情感分析,这个语句是我喜欢的1
1哈哈哈,万年刮痧王李白终于加强了1
2这个游戏好极了,个别英雄强度超标,游戏里面英雄种类丰富,我太菜,求大佬带飞1
3我觉得是个好游戏1
4这个模型准确度好垃圾,我不喜欢0
def cal_clear_word(test):
    stoplist = [' ', '\n', ',']

    def function(a):
        word_list = [w for w in jieba.cut(a) if w not in list(stoplist)]
        return word_list

    test['text'] = test.apply(lambda x: function(x['text']), axis=1)
    return test
# 结巴分类以及去掉停用词
return_df = cal_clear_word(test)
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.240 seconds.
Prefix dict has been built succesfully.
a=[]
for i in return_df['text']:
    for j in i:
        a.append(j)
words_dict = {}  # 建立字典
for word in a:
    if word not in words_dict:  # 如果单词不在字典中
        words_dict[word] = 1  # 初始词频为1
    else:
        words_dict[word] += 1  # 每次单词出现,词频加1
words_dict
{'我': 4,
 '想': 1,
 '用': 1,
 'CNN': 1,
 '做个': 1,
 '情感': 1,
 '分析': 1,
 '这个': 3,
 '语句': 1,
 '是': 2,
 '喜欢': 2,
 '的': 1,
 '哈哈哈': 1,
 '万年': 1,
 '刮痧': 1,
 '王': 1,
 '李白': 1,
 '终于': 1,
 '加强': 1,
 '了': 2,
 '游戏': 3,
 '好极了': 1,
 '个别': 1,
 '英雄': 2,
 '强度': 1,
 '超标': 1,
 '里面': 1,
 '种类': 1,
 '丰富': 1,
 '我太菜': 1,
 '求': 1,
 '大佬': 1,
 '带飞': 1,
 '觉得': 1,
 '个': 1,
 '好': 2,
 '模型': 1,
 '准确度': 1,
 '垃圾': 2,
 '不': 1,
 '王者': 1,
 '必糊': 1,
 '小学生': 1,
 '没防到': 1,
 '还': 1,
 '把': 1,
 '一群': 1,
 '初中生': 1,
 '什么': 2,
 '时候': 2,
 '没': 1,
 '人脸识别': 2,
 '回归': 1,
 '快': 1,
 '去': 1,
 '吧': 1,
 '健康': 1,
 '系统': 1,
 '去掉': 1,
 '不然': 1,
 '举报': 1,
 'mht': 1,
 ',': 1,
 '还要': 1,
 '微信': 1,
 '那些': 1,
 '没脑子': 1,
 '玩家': 1,
 '就别': 1,
 '下载': 1}

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值