在命名实体识别任务中,读取 CoNLL-2003 数据集时,发现read_csv函数无法正确分割第一列包含引号的行。这是因为pandas以引号作为quote_char属性的默认值,在引号中间的符号视为数据,不会检测其中的分隔符。
由于该数据集中单个引号是数据的一部分,因此把引号当作数据看待,禁用quoting:
content = pd.read_csv(data_path, sep='\t', quoting=csv.QUOTE_NONE)
在命名实体识别任务中,读取 CoNLL-2003 数据集时,发现read_csv函数无法正确分割第一列包含引号的行。这是因为pandas以引号作为quote_char属性的默认值,在引号中间的符号视为数据,不会检测其中的分隔符。
由于该数据集中单个引号是数据的一部分,因此把引号当作数据看待,禁用quoting:
content = pd.read_csv(data_path, sep='\t', quoting=csv.QUOTE_NONE)