python结巴分词的缺点_python使用结巴分词出错

该博客主要讨论了在Python代码中遇到的错误,`setdefaultencoding()`不适用于`openpyxl.Workbook()`初始化。解决方案是删除设置编码的参数,因为`openpyxl`不支持此参数。博客还涉及到了`jieba`库的使用进行文本分析,并通过`openpyxl`创建了一个Excel工作簿来存储分析结果。修复后的代码能够正确地统计和排序文本中的单词频率。
摘要由CSDN通过智能技术生成

问题描述:

代码:

importsys

reload(sys)

sys.setdefaultencoding('utf-8')

importjieba

importjieba.analyse

importopenpyxl

if__name__ =="__main__":

wbk = openpyxl.Workbook(encoding='ascii')

sheet = wbk.add_sheet("wordCount")

word_lst = []

key_list = []

forlineinopen('/home/frida/1.txt'):

item = line.strip('\n\r').split('\t')

# print item

tags = jieba.analyse.extract_tags(item[0])

fortintags:

word_lst.append(t)

word_dict = {}

withopen("/home/frida/wordCount.txt",'w')aswf2:

foriteminword_lst:

ifitemnot inword_dict:

word_dict[item] =1

else:

word_dict[item] +=1

orderList =list(word_dict.values())

orderList.sort(reverse=True)

# print orderList

foriinrange(len(orderList)):

forkeyinword_dict:

ifword_dict[key] == orderList:

wf2.write(key +' '+str(word_dict[key]) +'\n')

key_list.append(key)

word_dict[key] =0

foriinrange(len(key_list)):

sheet.write(i,1,label=orderList)

sheet.write(i,0,label=key_list)

wbk.save('wordCount_xls')

运行结果显示 line 16, in     wbk = openpyxl.Workbook(encoding='ascii')TypeError: __init__() got an unexpected keyword argument 'encoding'

解决方法;

这是对workbook的描述,没有encoding参数

Init signature: Workbook(write_only=False, iso_dates=False)

Docstring:      Workbook is the container for all other parts of the document.

File:           c:\programdata\anaconda3\lib\site-packages\openpyxl\workbook\workbook.py

Type:           type

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值