在利用结巴(jieba)进行分词时出现如下错误:AttributeError: 'float' object has no attribute 'decode'。
当读取编码为 UTF-8 的文件时不会报错,当读取为 gbk 时却会报这类错误。
在生产上报这个错太难受了~紧急解决。
由于生产上没有截图,因此用网络上的图。
原始内容:

def cutword(x):
seg = jieba.cut(x) #结巴分词函数
return ' '.join(seg)#
df['seg_word']=df['title'].apply(cutword)

解决办法:
在读取某个具体的字段并使用时,指定astype为(str)。成功!!
df = pd.DataFrame(df['title'].astype(str))

本文解决了一个在使用jieba进行中文分词时遇到的AttributeError问题,详细介绍了错误出现的原因及解决方法,即在读取字段时指定astype(str),确保了生产环境的稳定运行。
3509

被折叠的 条评论
为什么被折叠?



