自然语言处理

最新推荐文章于 2022-08-30 17:38:06 发布

youngzkai

最新推荐文章于 2022-08-30 17:38:06 发布

阅读量349

点赞数

分类专栏： python数据分析

本文链接：https://blog.csdn.net/qq_34707579/article/details/80984025

版权

就是对龙王传说这本小，查找关键字，并且按照，权重的大小排序

# coding: utf-8

# In[1]:


import json
import jieba
import pandas as pd
import os
import codecs
import sys
import re
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
from imp import reload 
reload(sys)
import chardet
from tqdm import tqdm
from sklearn.feature_extraction.text import TfidfVectorizer


# In[2]:


s = open('龙王传说23.txt','r',encoding = 'utf-16')


# In[3]:


def clean(text):
    #text = re.sub('[0-9]{2,}','',text)#消除两位以上的数字
    #text= re.sub('(?:(?:\d+,?)+(?:\.?\d+)?)','',text)#消除数字
    text = text.replace(' ','')#消除空格
    #text = re.sub('http[s]?://(?:[a-z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-f][0-9a-f]))+','',text)#消除网页链接
    text =

最低0.47元/天解锁文章

youngzkai

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理

就是对龙王传说这本小，查找关键字，并且按照，权重的大小排序# coding: utf-8# In[1]:import jsonimport jiebaimport pandas as pdimport osimport codecsimport sysimport refrom sklearn.feature_extraction.text import CountVect...
复制链接

扫一扫