python3默认是unicode编码。
最近读取存储为.csv 或者Excel 格式的文件,报属性错误,参考jieba分词时出现AttributeError: 'float' object has no attribute 'decode'的做法,
在read_csv后面加上.astype(str) ,不再报错。
-
import pandas as pd
-
import numpy as np
-
import os
-
import jieba.posseg as psg
-
#读取文件 #encoding='utf-8' # header=0,表示文件第0行为列索引
-
data = pd.read_csv('IPO因果事件抽取_去除重复行.csv',engine='python').astype(str) # 加上.astype(str) ,不再报错
-
print(data.head())
-
cause = data['cause'].tolist()
-
effect = data['effect'].tolist()
-
tag = data['tag'].tolist()
-
from normalization import normalize_corpus
-
# normalize corpus
-
# norm_cause = normalize_corpus(cause)
-
norm_effect = normalize_corpus(effect)
encode和decode分别指编码和解码。在python中,Unicode类型是作为编码的基础类型
-
decode encode
-
str ---------> str(Unicode) ---------> str
准确来说,Unicode不是编码格式,而是字符集。这个字符集包含了世界上目前所有的符号。