python 自然语言处理 代码实现(批量读取,分词,词向量化)

这篇博客演示了如何使用Python进行自然语言处理,包括批量读取TXT文件、分词、去除停用词以及使用TfidfVectorizer进行词向量化。通过jieba库进行中文分词,结合scikit-learn的TfidfVectorizer计算TF-IDF权重。此外,还展示了如何处理编码问题和批量读取文本文件。
摘要由CSDN通过智能技术生成
#coding=utf-8
#coding=gbk
import pandas as pd
import jieba
import codecs
import pandas as pd

#decode_set=['ANSI','utf-8','gb18030','ISO-8859-2','gb2312','gbk','Error']

    
df=open("D:\A仲敏2015\python_code\飞狐外传.txt")
df1=df.read()#open与read放在一起,read只能用一次
df_test=df1[1000:1100]
cf=open("D:\A仲敏2015\python_code\天龙八部.txt",encoding='gb18030',errors='ignore')
cf1=cf.read()
cf_test=cf1[1000:1100]
df_ceshi=jieba.cut(df_test)
cf_ceshi=jieba.cut(cf_test)
cf_r=" ".join(cf_ceshi)
df_r=" ".join(df_ceshi)
##引入停用词
import re
stop_words=open("D:\A仲敏2015\python_code\stop_words.txt")
stop_content=stop_words.read()#现实内容
stop_list=stop_content.splitlines()#将停用词表转化为list
stop_words.close()

##scikit-learn向量化
##特征处理的方法,向量化与Hash Trick
##用scikit-learn的TfidfVectorizer类来进行TF-IDF特征处理。
  • 2
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值