NLP常见问题汇总

  1. Q:怎么标注训练数据?

A:

您需要把您要训练的数据分为正向和负向的,标注的标准可以按照实际业务场景来判断。

我们以手机领域的用户评论数据为例:

a. 正向语料:对所描述事物表达肯定、满意、喜欢等态度。如:这个手机的功能强大,国产机的春天到了!

b. 负向语料:对所描述事物表达否定、不满、不喜欢等态度。如:超级不耐用,系统也烂,怎么说呢,反正我是不会再买了!

注:如果您没有数据标注的人力精力,您可以在『百度数据众包平台』上申请,会有专业团队根据您的需求来标注数据

(『百度数据众包平台』链接:http://zhongbao.baidu.com/mark/home/index)

  1. Q:模型训练需要上传多少数据?

A:

需自定义的语料分为正向语料(Positive)和负向语料(Negative),分别上传即可。每行一条数据,每种语料的数量需大于100 条,才可开始训练。为保证定制化效果,每种训练语料最好大于1000 条。当然,语料越多,模型的精度会越高。

注:建议您上传的正负语料的数量比例尽量均衡(1:1)。

  1. Q:为什么不需要上传中性语料?

A:

只上传正负语料可以让模型把分类边界更加明确 。目前来说,中性的标准很难界定,且目前二分类和三分类效果持平,为了不增加用户标注负担,暂时不支持三分类定制。我们也在持续迭代更新后端算法,如果三分类有明显的增益会另外再开放中性语料训练,给予用户更多场景选择。

  1. Q:模型是怎么进行训练和自动评估的?

A:

情感倾向分析的定制化在技术上的步骤包括4 个阶段:1). 数据预处理;2). 数据切分; 3). 特征提取及格式转换; 4).训练、验证及测试等阶段。

其中:

  1. 数据预处理:包括对配文件进行检查、对用户上传正负向语料打上标签、并完成切词和词性标注。

  2. 数据切分: 先从训练语料中按模取十分之一的数据作为测试集。测试集用于评估定制化前后的效果;接着对剩下的数据进行打乱,按9:1 的比例切分成训练集和验证集;其中,训练集用于模型的训练,验证集用于从已经训练好的模型中帮您筛选效果最好的模型。

  3. 特征提取和格式转换:生成训练词典,将训练集、验证集、测试集转换成相应的格式,供训练使用。

  4. 训练、验证及测试:使用训练工具进行训练,从训练的模型中挑选效果最好的模型,并在测试集上评估定制化前后的准确率。

自动评估:在第2 步的时候自动从训练数据里选取十分之一的数据,并在模型训练完成后自动对模型进行评估,分别评估出模型训练前后的准确率。

评估结果会包含四列:

l 第1列是用户原始训练数据,就是定制化训练数据切分的时候,按模取1/10 的数据。

l 第2列原始训练数据的label,用户上传的正向语料和负向语料,我们处理的时候会打上label,2表示正向,0 表示负向。

l 第3列是定制化前的通用模型得到的结果:2 表示正向,1 代表中性,0 表示负向。

l 第4列是定制化后的模型得到的结果:2 表示正向,1 代表中性,0 表示负向。

  1. Q:模型训练失败的常见原因有哪些?

A:

a. 编码错误

b. 数据行为空

c. 网络错误

a、b请您检查语料,c请您稍候重试。排除后的其他情况可以联系我们进行解决。

展开阅读全文

没有更多推荐了,返回首页