#coding=utf-8
#coding=gbk
import pandas as pd
import jieba
import codecs
import pandas as pd
#decode_set=['ANSI','utf-8','gb18030','ISO-8859-2','gb2312','gbk','Error']
df=open("D:\A仲敏2015\python_code\飞狐外传.txt")
df1=df.read()#open与read放在一起,read只能用一次
df_test=df1[1000:1100]
cf=open("D:\A仲敏2015\python_code\天龙八部.txt",encoding='gb18030',errors='ignore')
cf1=cf.read()
cf_test=cf1[1000:1100]
df_ceshi=jieba.cut(df_test)
cf_ceshi=jieba.cut(cf_test)
cf_r=" ".join(cf_ceshi)
df_r=" ".join(df_ceshi)
##引入停用词
import re
stop_words=open("D:\A仲敏2015\python_code\stop_words.txt")
stop_content=stop_words.read()#现实内容
stop_list=stop_content.splitlines()#将停用词表转化为list
stop_words.close()
##scikit-learn向量化
##特征处理的方法,向量化与Hash Trick
##用scikit-learn的TfidfVectorizer类来进行TF-IDF特征处理。
python 自然语言处理 代码实现(批量读取,分词,词向量化)
最新推荐文章于 2024-07-21 21:37:04 发布
这篇博客演示了如何使用Python进行自然语言处理,包括批量读取TXT文件、分词、去除停用词以及使用TfidfVectorizer进行词向量化。通过jieba库进行中文分词,结合scikit-learn的TfidfVectorizer计算TF-IDF权重。此外,还展示了如何处理编码问题和批量读取文本文件。
摘要由CSDN通过智能技术生成