python中文语音识别后-结巴分词以及停用词过滤时遇到的转码问题

最新推荐文章于 2024-07-05 14:19:56 发布

vseeker

最新推荐文章于 2024-07-05 14:19:56 发布

阅读量4.3k

点赞数 1

分类专栏： python code 文章标签： python utf-8 语音识别 unicode 编码

本文链接：https://blog.csdn.net/vseeker/article/details/51557134

版权

在进行中文语音识别后，利用结巴分词并过滤停用词时遇到了编码不一致的问题，导致无效词汇无法过滤。通过检测字符集并使用chardet库，将停用词表和分词结果统一转化为utf-8编码，成功解决了过滤问题。

摘要由CSDN通过智能技术生成

首先自己建立了一个停用词表，表中有各种符号，没有查询意义的中文词，以及英文词，在语音识别系统运行过程中，始终都维护着一个停用词表，但是在对结巴分词后的词进行过滤的时候出现了编码不一致的情况导致无意义词不能得到有效过滤。后来参考该链接：http://san-yun.iteye.com/blog/1544123，以及使用python的chardet库的detect方法检测字符的字符集属性，然后使用对应的codecs模块的相关方法1、将停用词文本中的字符转化为utf-8类型，2、将结巴分词的结果（本是unicode类型）也转化为utf-8类型，最终的目的即是将两者的字符集保持一致，这样才会达到过滤的效果。

代码如下：可通过修改注释部分结合相关链接，从而了解代码逻辑。最后如期过滤掉了“逗号，于”等字符

# -*- coding: utf-8 -*-
import jieba
import sys,time
import urllib2
import nltk
import os
import codecs
import chardet
recognitionResult = "小明硕士毕业于中国科学院计算所，后在日本京都大学深造"
look = codecs.lookup("gbk")
look2 = codecs.lookup("utf-8")
# print "jsu",ch