错题本
_春天_
这个作者很懒,什么都没留下…
展开
-
【Bug合集】json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig)
在从txt文件中解析JSON的时候出现报错。报错信息为:json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig): line 1 column 1 (char 0)这个报错的原因是用json.loads()将文本转换成json时,文本首部出现了BOM。用以下两行代码可以去掉。 line = fr.readline().strip() # 加入下面两行代码,去掉BOM原创 2021-08-20 17:36:31 · 2898 阅读 · 0 评论 -
鱼蠢的我
数据预处理部分确保数据预处理中每一小步的结果都和你预期的一样。——the King of Piggy Kingdom从文件中读取所有的字构建词典。文件格式改了,构建时的每行的读取方式没变,导致词典中实际上并不是词,而是句子。还是在构建词表的时候,词切分完了没有strip,导致词典中每个词后面都有一个’\n’,在句子vectorize的过程中,所有字都被映射成了unknown。这一条和上一条都可以通过词典构建完成后及时检查来避免。模型部分做ner任务时,模型预测的类别数远超除了labe原创 2021-01-13 18:31:43 · 73 阅读 · 0 评论 -
踩过的坑
目录1. loss不变,learn nothing2. ner任务,预测标签全部为01. loss不变,learn nothing我的模型没有学到任何东西,不是我的模型太垃圾,而是我太垃圾了,在数据预处理阶段没有仔细检查,导致我的输入的embedding全为零。Input nothing,learn nothing。 ——春天2. ner任务,预测标签全部为0也就是没有识别出任何一个实体,模型给所有的词都搭上了“O”的标签。原因可能是输入的embedding矩阵太过稀疏。正在寻找原因。.原创 2020-09-24 17:51:35 · 338 阅读 · 0 评论 -
pandas 用read_csv读取txt文件时,部分行丢失
用pandas 的 read_csv 来读取txt文件时,出现了部分行丢失的情况。原因是某行中有单个英文引号,导致\n换行符失效。多行连成了一行,直到遇到下一个单个引号。例如:.txt文件如下: 这里有一个未闭合的引号"就是它! 这是正常的第二行 这是正常的“第三行” 这是带着"英文引号"的第四行 这是第五行如果不存在不闭合的英文引号,行与行之间会“粘”在一起,看起来就是丟行...原创 2019-04-25 16:11:58 · 4830 阅读 · 4 评论