基于nlp自然语言预测模型
在建模训练过程中遇到如下问题,供大家学习,借鉴
1.数据集字符编码问题 ,'utf-8' codec can't decode byte 0xb1 in position 2: invalid start byte 错误处理.
;
2.AttributeError: 'Example' object has no attribute 'label'错误提示
如下问题
1. 数据集字符编码问题 ,'utf-8' codec can't decode byte 0xb1 in position 2: invalid start byte 错误处理
.
;
2. 建模过程中遇到 AttributeError: 'Example' object has no attribute 'label'错误提示
;
字符编码问题解决方案:
运行提示错误:字符不能正确读取
具体方法如下,重新读取数据集,修改数据集编码方式,更改以为utf8:
具体代码如下
def check_utf8():
# python3
path = 'd:/data/train10400.csv'
up_path = 'd:/data/10400_urf8.csv'
f = open(path, "r") #读取数据集
fw = open(up_path, "wb") # 二进制格式写入文件
i = 0
while True:
i += 1
line = f.readline()
if not line:
break
else:
try:
fw.write(line.encode(encoding='utf-8'))#编码设置utf-8
except:
# print(i)
print(str(line))
这样再次运行,正确执行,无编码格式报错问题
处理 AttributeError: 'Example' object has no attribute 'label
错误问题
错误原因,是因为数据格式问题导致
如何解决训练模型过程中数据集错误问题
- 预处理数据,代码效验
- 对数据进行,模型检测
我们通过debug模型,查找出问题数据
在数据集定位当前数据,明显发现23行与其他数据集格式不相匹配
**修改23行格式错误数据**
**重新运行项目,查看结果**
成功解决报错问题