NLP_统计词频

最新推荐文章于 2023-05-05 16:45:55 发布

Happy丶lazy

最新推荐文章于 2023-05-05 16:45:55 发布

阅读量754

点赞数

分类专栏： NLP 文章标签： NLP 词频统计

本文链接：https://blog.csdn.net/qq_39309652/article/details/116104392

版权

NLP 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

import pandas as pd
import jieba

test=pd.DataFrame({'text':['我想用CNN做个情感分析，这个语句是我喜欢的',
                           '哈哈哈，万年刮痧王李白终于加强了',
                           '这个游戏好极了，个别英雄强度超标，游戏里面英雄种类丰富，我太菜，求大佬带飞',
                           '我觉得是个好游戏',
                           '这个模型准确度好垃圾，我不喜欢',
                           '王者必糊，小学生没防到，还把一群初中生，什么时候没人脸识别，什么时候回归',
                           '快去吧健康系统去掉，不然举报',
                           '垃圾mht,还要人脸识别微信',
                           '那些没脑子玩家就别下载了',
                          ],
                  'label':[1, 1, 1, 1, 0, 0, 0, 0, 0]})
test.head()

	text	label
0	我想用CNN做个情感分析，这个语句是我喜欢的	1
1	哈哈哈，万年刮痧王李白终于加强了	1
2	这个游戏好极了，个别英雄强度超标，游戏里面英雄种类丰富，我太菜，求大佬带飞	1
3	我觉得是个好游戏	1
4	这个模型准确度好垃圾，我不喜欢	0

def cal_clear_word(test):
    stoplist = [' ', '\n', '，']

    def function(a):
        word_list = [w for w in jieba.cut(a) if w not in list(stoplist)]
        return word_list

    test['text'] = test.apply(lambda x: function(x['text']), axis=1)
    return test
# 结巴分类以及去掉停用词
return_df = cal_clear_word(test)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.240 seconds.
Prefix dict has been built succesfully.

a=[]
for i in return_df['text']:
    for j in i:
        a.append(j)

words_dict = {}  # 建立字典
for word in a:
    if word not in words_dict:  # 如果单词不在字典中
        words_dict[word] = 1  # 初始词频为1
    else:
        words_dict[word] += 1  # 每次单词出现，词频加1

words_dict

{'我': 4,
 '想': 1,
 '用': 1,
 'CNN': 1,
 '做个': 1,
 '情感': 1,
 '分析': 1,
 '这个': 3,
 '语句': 1,
 '是': 2,
 '喜欢': 2,
 '的': 1,
 '哈哈哈': 1,
 '万年': 1,
 '刮痧': 1,
 '王': 1,
 '李白': 1,
 '终于': 1,
 '加强': 1,
 '了': 2,
 '游戏': 3,
 '好极了': 1,
 '个别': 1,
 '英雄': 2,
 '强度': 1,
 '超标': 1,
 '里面': 1,
 '种类': 1,
 '丰富': 1,
 '我太菜': 1,
 '求': 1,
 '大佬': 1,
 '带飞': 1,
 '觉得': 1,
 '个': 1,
 '好': 2,
 '模型': 1,
 '准确度': 1,
 '垃圾': 2,
 '不': 1,
 '王者': 1,
 '必糊': 1,
 '小学生': 1,
 '没防到': 1,
 '还': 1,
 '把': 1,
 '一群': 1,
 '初中生': 1,
 '什么': 2,
 '时候': 2,
 '没': 1,
 '人脸识别': 2,
 '回归': 1,
 '快': 1,
 '去': 1,
 '吧': 1,
 '健康': 1,
 '系统': 1,
 '去掉': 1,
 '不然': 1,
 '举报': 1,
 'mht': 1,
 ',': 1,
 '还要': 1,
 '微信': 1,
 '那些': 1,
 '没脑子': 1,
 '玩家': 1,
 '就别': 1,
 '下载': 1}

Happy丶lazy

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
NLP_统计词频

import pandas as pdimport jiebatest=pd.DataFrame({'text':['我想用CNN做个情感分析，这个语句是我喜欢的', '哈哈哈，万年刮痧王李白终于加强了', '这个游戏好极了，个别英雄强度超标，游戏里面英雄种类丰富，我太菜，求大佬带飞', '我觉得是个好游戏',
复制链接

扫一扫