自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 提取视频音质

【代码】提取视频音质。

2022-12-29 13:58:44 103 1

原创 matplotlib

【代码】matplotlib。

2022-10-20 10:25:56 271

原创 defaultdict 嵌套用法

【代码】defaultdict 嵌套用法。

2022-10-20 10:22:28 135

原创 Dataframe 总结

Dataframe 总结。

2022-10-10 11:35:45 70

原创 237 删除链表节点

【代码】237 删除链表节点。

2022-09-05 14:18:04 50

原创 206 翻转链表

【代码】206 翻转链表。

2022-09-05 11:54:42 36

原创 70. 爬楼梯

【代码】70. 爬楼梯。

2022-08-29 14:08:50 42

原创 如何构建高质量的 QA 问答知识库

NLP 技术落地最普遍的场景就是智能客服,如阿里的”小蜜“,京东的“JIMI”等等。NLP 技术也广泛应用于搜索系统。无论是“智能客服”,还是“搜索系统”,构建的前提是拥有“高质量的QA知识库”。今天聊聊“如何构建高质量QA知识库。”。历史对话数据分布分析基于公司现有系统积累的大规模对话文本数据,需要对文本数据进行归类处理,分析每个部分数据的占比,挖掘出有价值的文本通过 NLP 相关技术进行商业价值转化。下文以医疗领域来举例说明,通过输入对象,可以将文本分为客服输入和用户输入两部分。挖掘相关问题,主要从

2021-08-15 15:02:59 1365

原创 如何评估分布式词向量(word2vec)

自然语言处理领域中,目标任务都需要使用到预训练的词向量。质量较高的单词的分布式有助于任务的训练以及指标的提升。基于某一领域的大规模文本,使用主流的 word2vec(CBOW、skip-gram)、glove、elmo 等方法都可以训练获得词向量,如何评估分布式词向量的质量呢?单词向量的评价方法单词相似度的评价通常使用人工创建的单词相似度评价集来评估。比如,cat 和 animal 的相似度是 8, cat 和 car 的相似度是 2。类似这样,用 0~10 的分数人工地对单词之间的相似度打分。然后,

2021-08-15 15:02:07 575

原创 第 7 题:盛最多水的容器

题目给你 n 个非负整数 a1,a2,…,an,每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线,垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0) 。找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。考点双指针问题运行代码class Solution { public int maxArea(int[] height) { int ans = 0; int left=0; int rig

2021-08-09 17:42:01 82

原创 第 5 题:最长回文子串

题目给你一个字符串 s,找到 s 中最长的回文子串。考点动态规划使用相同子串的策略加上限制条件,因为两个字符串的相同子串不一定是回文子串。运行代码class Solution { public String longestPalindrome(String s) { if("".equals(s)){ return ""; } int length=s.length(); int maxlen=0

2021-07-30 15:07:27 64

原创 第 4 题:寻找两个正序数组的中位数

题目给定两个大小分别为 m 和 n 的正序(从小到大)数组 nums1 和 nums2。请你找出并返回这两个正序数组的 中位数 。考点二分法运行代码class Solution { public double findMedianSortedArrays(int[] nums1, int[] nums2) { int n = nums1.length; int m = nums2.length; int left = (n+m+1)/2;

2021-07-29 16:23:15 95

原创 第 3 题:无重复字符的最长子串

题目给定一个字符串 s ,请你找出其中不含有重复字符的 最长子串 的长度。运行代码import java.util.HashMap;import java.util.Map;class Solution { public int lengthOfLongestSubstring(String s) { int ans=0; int start =0; Map<Character,Integer> map = new HashM

2021-07-29 11:28:15 64

原创 序列标注任务数据增强

在上一篇文章我们学习了基本的数据增强的 N 种方法,今天我们针对“序列标注”任务具体聊一聊如何数据增强?“序列标注”是一个 token-level 的分类任务,当进行全局结构化预测时候,一些增强方式产生的数据噪音可能会让“序列标注”模型变得敏感脆弱,导致评估指标下降。本文主要讲解一篇论文对“序列标注”任务的数据增强方法:DAGA: Data Augmentation with a Generation Approach forLow-resource Tagging TasksDAGA本文提出了一

2021-07-25 22:54:44 762

原创 自然语言处理之文本数据增强

什么是数据增强数据增强可以简单理解为由少量数据生成大量数据的过程。一般比较成功的神经网络拥有大量参数,使这些参数正确工作需要用大量的数据进行训练,但实际情况中数据并没有那么多,因此需要做数据增强。数据增强的作用增加训练的数据量,提高模型的泛化能力增加噪声数据,提升模型的鲁棒性解决数据不足或数据不均衡问题数据增强的分类根据数据增强的对象可以将增强研究分类两类:面向文本表示的增强研究: 主要是对原始文本的特征表示进行处理,比如在表示层注入随机噪音等方法,来获得增强后的文本表示。增强后的表示

2021-07-23 14:22:36 1012

原创 NLP 预处理总结

在处理 NLP 相关任务的时候(文本分类、聚类,智能客服等),首要任务是对文本数据进行预处理。结合自己的实践经验,总结了 N 条预处理的方法。去掉一些无用的符号文本中可能会出现连续的符号(比如感叹号!!!或一些奇怪的单词等。)我们将文本按照符号进行分割然后再组装。def tokenizer(ori_list): SYMBOLS = re.compile('[\s;\"\",.!?\\/\[\]]+') new_list = [] for q in ori_list: word

2021-07-22 17:56:36 481

文本高频词统计、词云图和词频共现分析

基于大规模文本数据,完成文本高频词统计任务以及实现词云图的可视化。基于高频次实现词频共现分析。

2024-04-01

基于预训练模型的文本情感分析

1、修改模型路径(下载到你电脑上的路径) 2、文件 data 路径下,支持 Excel(需要预测的列名为 “sent”)。 3、运行 sentiment.py,生成结果在 result 文件夹。

2024-02-06

自然语言处理大模型学习路径规划

学习路径 总结和学习路径 Python 基础 数学基础 机器学习算法 神经网络基础 经网络与多层感知器 卷积神经网络基础 循环神经网络 Transformer Bert 6 . GPT 7 . ... Pytorch 入门 NLP 基础知识 LLM 书籍推荐

2024-02-06

大模型自动生成SFT指令总结

自动生成指令 Self-Instruct 1. Self-Instruct 数据生成流程 2. 生成任务指令 3. 确定指令是否代表分类任务 4. 生成任务输入和输出 5. 过滤低质量数据 6. 参考资料

2024-02-06

推理框架 vllm 学习总结

VLLM LLM Batch LLM batching continus batching PagedAttention KV Cache PagedAttention:解决内存瓶颈 KV 缓存管理器 使用 PagedAttention 和 vLLM 进行解码 Memory Sharing VLLM的使用 安装 离线推理 在线服务启动 在线服务调用

2024-02-06

基于字典的文本情感分析项目

1、用户自己配置领域字典 2、用户按照格式修改自己的数据 3、根据算法即可完成批量数据预测

2024-02-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除