python 自然语言处理代码实现（批量读取，分词，词向量化）

最新推荐文章于 2024-07-21 21:37:04 发布

小木头1209

最新推荐文章于 2024-07-21 21:37:04 发布

阅读量9k

点赞数 2

分类专栏： python学习文章标签： python 自然语言处理词向量批量读取

本文链接：https://blog.csdn.net/jiasudu1234/article/details/71746838

版权

这篇博客演示了如何使用Python进行自然语言处理，包括批量读取TXT文件、分词、去除停用词以及使用TfidfVectorizer进行词向量化。通过jieba库进行中文分词，结合scikit-learn的TfidfVectorizer计算TF-IDF权重。此外，还展示了如何处理编码问题和批量读取文本文件。

摘要由CSDN通过智能技术生成

#coding=utf-8
#coding=gbk
import pandas as pd
import jieba
import codecs
import pandas as pd

#decode_set=['ANSI','utf-8','gb18030','ISO-8859-2','gb2312','gbk','Error']

    
df=open("D:\A仲敏2015\python_code\飞狐外传.txt")
df1=df.read()#open与read放在一起，read只能用一次
df_test=df1[1000:1100]
cf=open("D:\A仲敏2015\python_code\天龙八部.txt",encoding='gb18030',errors='ignore')
cf1=cf.read()
cf_test=cf1[1000:1100]
df_ceshi=jieba.cut(df_test)
cf_ceshi=jieba.cut(cf_test)
cf_r=" ".join(cf_ceshi)
df_r=" ".join(df_ceshi)
##引入停用词
import re
stop_words=open("D:\A仲敏2015\python_code\stop_words.txt")
stop_content=stop_words.read()#现实内容
stop_list=stop_content.splitlines()#将停用词表转化为list
stop_words.close()

##scikit-learn向量化
##特征处理的方法，向量化与Hash Trick
##用scikit-learn的TfidfVectorizer类来进行TF-IDF特征处理。

最低0.47元/天解锁文章

小木头1209

关注

2
点赞
踩
27

收藏

觉得还不错? 一键收藏
3
评论
python 自然语言处理代码实现（批量读取，分词，词向量化）

#coding=utf-8#coding=gbkimport pandas as pdimport jiebaimport codecsimport pandas as pd#decode_set=['ANSI','utf-8','gb18030','ISO-8859-2','gb2312','gbk','Error'] df=open("D:\A仲敏2015\pytho
复制链接

扫一扫