A. 比较好的项目模块:
一: 自然语言处理
1. 基础任务集合
1.1 用bert做三元组抽取
1.2. 线性attention
1.3 文本分类
1.3.1 多标签分类
多标签对应的是 一对多的问题。
项目地址
4中不同的实现方法
1.3.2 Bert-Chinese-Text-Classification-Pytorch
1.3.3 长文本文本分类
1.4 CLUE的基准任务模型
描述:包含生成,分类,关键词提取,对话等基准任务模型
项目地址
1.5 文本生成
1.5.1 多语言翻译
-
脸书多语言翻译:
支持200种语言 -
脸书 M2M -100
支持100种语言翻译
1.5.2 文本摘要
1.6 方面级别情感分析,小模型优于LLMA2大模型
1.7 基于大模型的聚类
2. 常用工具集合
- JioNLP:中文 NLP 预处理、解析工具包 A Python Lib for Chinese NLP Preprocessing & Parsing
网址:NLP预处理、解析工具包
介绍:JioNLP 是一个面向 NLP 开发者的工具包,提供 NLP 任务预处理、解析功能,准确、高效、零使用门槛。请下拉本网页,查阅具体功能信息,并按 Ctrl+F 进行搜索。JioNLP在线版 可快速试用部分功能。关注同名微信公众号 JioNLP 可获取最新的 NLP 资讯,数据资源。
二: 知识图谱
合同审查:信息抽取(NER)+规则+知识图图谱+LLM
1. 一统NER的 W2NER
W2NER
W2NER模型,将NER任务转换预测word-word(备注:中文是字-字)的关系类别,它能够统一处理扁平实体、重叠实体和非连续实体三种NER任务,即一招通吃。
三、图像处理
四、语音识别
1. FunASR: A Fundamental End-to-End Speech Recognition Toolkit
FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程,支持预训练好的模型的推理与微调。
2. Robust Speech Recognition via Large-Scale Weak Supervision
Whisper是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。
Transformer序列到序列模型在各种语音处理任务上进行训练,包括多语言语音识别、语音翻译、口语识别和语音活动检测。这些任务被联合表示为一系列由解码器预测的令牌,允许单个模型取代传统语音处理管道的许多阶段。多任务训练格式使用一组特殊的令牌作为任务说明符或分类目标。
我们使用Python 3.9.9和PyTorch 1.10.1来训练和测试我们的模型,但代码库预计将与Python 3.8-3.11和最近的PyTorch版本兼容。代码库还依赖于一些Python包,最值得注意的是OpenAl的tiktoken,用于快速标记器实现。您可以使用以下命令下载并安装(或更新到)最新版本的Whisper:
3. emotion2vec情感通用表征微调模型
emotion2vec是第一个通用的语音情感表征模型。通过自监督预训练,emotion2vec能够在不同的任务、语言和场景中提取情感表征。
该版本权重为多轮迭代微调获得的9分类情感识别模型。首先使用语音情感识别学术数据集fine-tune emotion2vec,然后对15万小时中英数据进行标注,筛选文本情感与语音情感相同,并且置信度高的数据(超过1万小时)再次fine-tune emotion2vec,获得该版本权重。
目前支持的分类为: 0: angry 1: disgusted 2: fearful 3: happy 4: neutral 5: other 6: sad 7: surprised 8: unknown
1. Vary 旷视开源ocr 识别表格
B. 比较好的论文:
一: 自然语言处理相关
二: 知识图谱相关
C. 比较好的科普文章:
一: NLP
2. Transformer 讲解非常好的文章
Transformer 讲解非常好的文章。这篇文章从输入开始,一步一步演示了数据在 Transformer 中的流动过程。 中文讲解在 AINLP 的公众号上很详细
第二篇和第一篇结合起来看非常合适
3. 文本相似度处理总结
比较好的文本相似度处理总结
** 4. 《SPACES:“抽取-生成”式长文本摘要(法研杯总结)》 **
摘要任务的经验
本文总结了我们做法研杯司法摘要任务的经验。有收获
二: KG
1. 知识图谱相关学习资料
知识图谱相关学习资料,提供系统化的知识图谱学习路径。