于python3默认是unicode编码。
最近读取存储为.csv格式的文件,报属性错误,参考jieba分词时出现AttributeError: 'float' object has no attribute 'decode'的做法,
在read_csv后面加上.astype(str) ,不再报错。
import pandas as pd
import numpy as np
import os
import jieba.posseg as psg
#读取文件 #encoding='utf-8' # header=0,表示文件第0行为列索引
data = pd.read_csv('IPO因果事件抽取_去除重复行.csv',engine='python').astype(str) # 加上.astype(str) ,不再报错
print(data.head())
cause = data['cause'].tolist()
effect = data['effect'].tolist()
tag = data['tag'].tolist()
from normalization import normalize_corpus
# normalize corpus
# norm_cause = normalize_corpus(cause)
norm_effect = normalize_corpus(effect)
encode和decode分别指编码和解码。在python中,Unicode类型是作为编码的基础类型
decode encode
str ---------> str(Unicode) ---------> str
准确来说,Unicode不是编码格式,而是字符集。这个字符集包含了世界上目前所有的符号。