dreampai-CSDN博客

原创 defaultdict 嵌套用法

【代码】defaultdict 嵌套用法。

2022-10-20 10:22:28 135

NLP 技术落地最普遍的场景就是智能客服，如阿里的”小蜜“，京东的“JIMI”等等。NLP 技术也广泛应用于搜索系统。无论是“智能客服”，还是“搜索系统”，构建的前提是拥有“高质量的QA知识库”。今天聊聊“如何构建高质量QA知识库。”。历史对话数据分布分析基于公司现有系统积累的大规模对话文本数据，需要对文本数据进行归类处理，分析每个部分数据的占比，挖掘出有价值的文本通过 NLP 相关技术进行商业价值转化。下文以医疗领域来举例说明，通过输入对象，可以将文本分为客服输入和用户输入两部分。挖掘相关问题，主要从

2021-08-15 15:02:59 1365

原创如何评估分布式词向量（word2vec）

自然语言处理领域中，目标任务都需要使用到预训练的词向量。质量较高的单词的分布式有助于任务的训练以及指标的提升。基于某一领域的大规模文本，使用主流的 word2vec（CBOW、skip-gram）、glove、elmo 等方法都可以训练获得词向量，如何评估分布式词向量的质量呢？单词向量的评价方法单词相似度的评价通常使用人工创建的单词相似度评价集来评估。比如，cat 和 animal 的相似度是 8, cat 和 car 的相似度是 2。类似这样，用 0～10 的分数人工地对单词之间的相似度打分。然后，

2021-08-15 15:02:07 575

原创第 7 题：盛最多水的容器

题目给你 n 个非负整数 a1，a2，…，an，每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线，垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0) 。找出其中的两条线，使得它们与 x 轴共同构成的容器可以容纳最多的水。考点双指针问题运行代码class Solution { public int maxArea(int[] height) { int ans = 0; int left=0; int rig

2021-08-09 17:42:01 82

原创第 5 题：最长回文子串

题目给你一个字符串 s，找到 s 中最长的回文子串。考点动态规划使用相同子串的策略加上限制条件，因为两个字符串的相同子串不一定是回文子串。运行代码class Solution { public String longestPalindrome(String s) { if("".equals(s)){ return ""; } int length=s.length(); int maxlen=0

2021-07-30 15:07:27 64

原创第 4 题：寻找两个正序数组的中位数

题目给定两个大小分别为 m 和 n 的正序（从小到大）数组 nums1 和 nums2。请你找出并返回这两个正序数组的中位数。考点二分法运行代码class Solution { public double findMedianSortedArrays(int[] nums1, int[] nums2) { int n = nums1.length; int m = nums2.length; int left = (n+m+1)/2;

2021-07-29 16:23:15 95

原创第 3 题：无重复字符的最长子串

题目给定一个字符串 s ，请你找出其中不含有重复字符的最长子串的长度。运行代码import java.util.HashMap;import java.util.Map;class Solution { public int lengthOfLongestSubstring(String s) { int ans=0; int start =0; Map<Character,Integer> map = new HashM

2021-07-29 11:28:15 64

原创序列标注任务数据增强

在上一篇文章我们学习了基本的数据增强的 N 种方法，今天我们针对“序列标注”任务具体聊一聊如何数据增强？“序列标注”是一个 token-level 的分类任务，当进行全局结构化预测时候，一些增强方式产生的数据噪音可能会让“序列标注”模型变得敏感脆弱，导致评估指标下降。本文主要讲解一篇论文对“序列标注”任务的数据增强方法：DAGA: Data Augmentation with a Generation Approach forLow-resource Tagging TasksDAGA本文提出了一

2021-07-25 22:54:44 762

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Jiassheng的博客

原创提取视频音质

原创 matplotlib

原创 defaultdict 嵌套用法

原创 Dataframe 总结

原创 237 删除链表节点

原创 206 翻转链表

原创 70. 爬楼梯

原创如何构建高质量的 QA 问答知识库

原创如何评估分布式词向量（word2vec）

原创第 7 题：盛最多水的容器

原创第 5 题：最长回文子串

原创第 4 题：寻找两个正序数组的中位数

原创第 3 题：无重复字符的最长子串

原创序列标注任务数据增强

原创自然语言处理之文本数据增强

原创 NLP 预处理总结

文本高频词统计、词云图和词频共现分析

基于预训练模型的文本情感分析

自然语言处理大模型学习路径规划

大模型自动生成SFT指令总结

推理框架 vllm 学习总结

基于字典的文本情感分析项目

空空如也