![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP 算法
文章平均质量分 76
dreampai
这个作者很懒,什么都没留下…
展开
-
如何构建高质量的 QA 问答知识库
NLP 技术落地最普遍的场景就是智能客服,如阿里的”小蜜“,京东的“JIMI”等等。NLP 技术也广泛应用于搜索系统。无论是“智能客服”,还是“搜索系统”,构建的前提是拥有“高质量的QA知识库”。今天聊聊“如何构建高质量QA知识库。”。历史对话数据分布分析基于公司现有系统积累的大规模对话文本数据,需要对文本数据进行归类处理,分析每个部分数据的占比,挖掘出有价值的文本通过 NLP 相关技术进行商业价值转化。下文以医疗领域来举例说明,通过输入对象,可以将文本分为客服输入和用户输入两部分。挖掘相关问题,主要从原创 2021-08-15 15:02:59 · 1347 阅读 · 0 评论 -
如何评估分布式词向量(word2vec)
自然语言处理领域中,目标任务都需要使用到预训练的词向量。质量较高的单词的分布式有助于任务的训练以及指标的提升。基于某一领域的大规模文本,使用主流的 word2vec(CBOW、skip-gram)、glove、elmo 等方法都可以训练获得词向量,如何评估分布式词向量的质量呢?单词向量的评价方法单词相似度的评价通常使用人工创建的单词相似度评价集来评估。比如,cat 和 animal 的相似度是 8, cat 和 car 的相似度是 2。类似这样,用 0~10 的分数人工地对单词之间的相似度打分。然后,原创 2021-08-15 15:02:07 · 571 阅读 · 0 评论 -
序列标注任务数据增强
在上一篇文章我们学习了基本的数据增强的 N 种方法,今天我们针对“序列标注”任务具体聊一聊如何数据增强?“序列标注”是一个 token-level 的分类任务,当进行全局结构化预测时候,一些增强方式产生的数据噪音可能会让“序列标注”模型变得敏感脆弱,导致评估指标下降。本文主要讲解一篇论文对“序列标注”任务的数据增强方法:DAGA: Data Augmentation with a Generation Approach forLow-resource Tagging TasksDAGA本文提出了一原创 2021-07-25 22:54:44 · 760 阅读 · 0 评论 -
自然语言处理之文本数据增强
什么是数据增强数据增强可以简单理解为由少量数据生成大量数据的过程。一般比较成功的神经网络拥有大量参数,使这些参数正确工作需要用大量的数据进行训练,但实际情况中数据并没有那么多,因此需要做数据增强。数据增强的作用增加训练的数据量,提高模型的泛化能力增加噪声数据,提升模型的鲁棒性解决数据不足或数据不均衡问题数据增强的分类根据数据增强的对象可以将增强研究分类两类:面向文本表示的增强研究: 主要是对原始文本的特征表示进行处理,比如在表示层注入随机噪音等方法,来获得增强后的文本表示。增强后的表示原创 2021-07-23 14:22:36 · 1002 阅读 · 0 评论 -
NLP 预处理总结
在处理 NLP 相关任务的时候(文本分类、聚类,智能客服等),首要任务是对文本数据进行预处理。结合自己的实践经验,总结了 N 条预处理的方法。去掉一些无用的符号文本中可能会出现连续的符号(比如感叹号!!!或一些奇怪的单词等。)我们将文本按照符号进行分割然后再组装。def tokenizer(ori_list): SYMBOLS = re.compile('[\s;\"\",.!?\\/\[\]]+') new_list = [] for q in ori_list: word原创 2021-07-22 17:56:36 · 479 阅读 · 0 评论