- 博客(16)
- 收藏
- 关注
原创 如何构建高质量的 QA 问答知识库
NLP 技术落地最普遍的场景就是智能客服,如阿里的”小蜜“,京东的“JIMI”等等。NLP 技术也广泛应用于搜索系统。无论是“智能客服”,还是“搜索系统”,构建的前提是拥有“高质量的QA知识库”。今天聊聊“如何构建高质量QA知识库。”。历史对话数据分布分析基于公司现有系统积累的大规模对话文本数据,需要对文本数据进行归类处理,分析每个部分数据的占比,挖掘出有价值的文本通过 NLP 相关技术进行商业价值转化。下文以医疗领域来举例说明,通过输入对象,可以将文本分为客服输入和用户输入两部分。挖掘相关问题,主要从
2021-08-15 15:02:59
1365
原创 如何评估分布式词向量(word2vec)
自然语言处理领域中,目标任务都需要使用到预训练的词向量。质量较高的单词的分布式有助于任务的训练以及指标的提升。基于某一领域的大规模文本,使用主流的 word2vec(CBOW、skip-gram)、glove、elmo 等方法都可以训练获得词向量,如何评估分布式词向量的质量呢?单词向量的评价方法单词相似度的评价通常使用人工创建的单词相似度评价集来评估。比如,cat 和 animal 的相似度是 8, cat 和 car 的相似度是 2。类似这样,用 0~10 的分数人工地对单词之间的相似度打分。然后,
2021-08-15 15:02:07
575
原创 第 7 题:盛最多水的容器
题目给你 n 个非负整数 a1,a2,…,an,每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线,垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0) 。找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。考点双指针问题运行代码class Solution { public int maxArea(int[] height) { int ans = 0; int left=0; int rig
2021-08-09 17:42:01
82
原创 第 5 题:最长回文子串
题目给你一个字符串 s,找到 s 中最长的回文子串。考点动态规划使用相同子串的策略加上限制条件,因为两个字符串的相同子串不一定是回文子串。运行代码class Solution { public String longestPalindrome(String s) { if("".equals(s)){ return ""; } int length=s.length(); int maxlen=0
2021-07-30 15:07:27
64
原创 第 4 题:寻找两个正序数组的中位数
题目给定两个大小分别为 m 和 n 的正序(从小到大)数组 nums1 和 nums2。请你找出并返回这两个正序数组的 中位数 。考点二分法运行代码class Solution { public double findMedianSortedArrays(int[] nums1, int[] nums2) { int n = nums1.length; int m = nums2.length; int left = (n+m+1)/2;
2021-07-29 16:23:15
95
原创 第 3 题:无重复字符的最长子串
题目给定一个字符串 s ,请你找出其中不含有重复字符的 最长子串 的长度。运行代码import java.util.HashMap;import java.util.Map;class Solution { public int lengthOfLongestSubstring(String s) { int ans=0; int start =0; Map<Character,Integer> map = new HashM
2021-07-29 11:28:15
64
原创 序列标注任务数据增强
在上一篇文章我们学习了基本的数据增强的 N 种方法,今天我们针对“序列标注”任务具体聊一聊如何数据增强?“序列标注”是一个 token-level 的分类任务,当进行全局结构化预测时候,一些增强方式产生的数据噪音可能会让“序列标注”模型变得敏感脆弱,导致评估指标下降。本文主要讲解一篇论文对“序列标注”任务的数据增强方法:DAGA: Data Augmentation with a Generation Approach forLow-resource Tagging TasksDAGA本文提出了一
2021-07-25 22:54:44
762
原创 自然语言处理之文本数据增强
什么是数据增强数据增强可以简单理解为由少量数据生成大量数据的过程。一般比较成功的神经网络拥有大量参数,使这些参数正确工作需要用大量的数据进行训练,但实际情况中数据并没有那么多,因此需要做数据增强。数据增强的作用增加训练的数据量,提高模型的泛化能力增加噪声数据,提升模型的鲁棒性解决数据不足或数据不均衡问题数据增强的分类根据数据增强的对象可以将增强研究分类两类:面向文本表示的增强研究: 主要是对原始文本的特征表示进行处理,比如在表示层注入随机噪音等方法,来获得增强后的文本表示。增强后的表示
2021-07-23 14:22:36
1012
原创 NLP 预处理总结
在处理 NLP 相关任务的时候(文本分类、聚类,智能客服等),首要任务是对文本数据进行预处理。结合自己的实践经验,总结了 N 条预处理的方法。去掉一些无用的符号文本中可能会出现连续的符号(比如感叹号!!!或一些奇怪的单词等。)我们将文本按照符号进行分割然后再组装。def tokenizer(ori_list): SYMBOLS = re.compile('[\s;\"\",.!?\\/\[\]]+') new_list = [] for q in ori_list: word
2021-07-22 17:56:36
481
基于预训练模型的文本情感分析
2024-02-06
自然语言处理大模型学习路径规划
2024-02-06
大模型自动生成SFT指令总结
2024-02-06
推理框架 vllm 学习总结
2024-02-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人