介绍:
NLP 包含基础研究、应用研究两个方面,其中,基础研究包括数据相关以及分析相关,应用研究包括NLP本领域以及相关领域研究。
- 1-1 数据(基础)相关:数据抓取、数据预处理(字符编码)、数据存储(数据库、图谱)、数据分析(数学)等
- 1-2 分析相关: 词、句、篇等分析,比如:分词、序列标注、消歧/消解、关键词抽取、文本相似度、分类、句法分析等
- 2-1 本领域:机器翻译、对话、问答、自动摘要、舆情分析、情感分析、阅读理解等
- 2-2 相关领域:机器学习、搜索、推荐、ocr、asr、cv、tts等
1-1 数据(基础)相关
数据预处理
NLP 相关领域研究进展(论文&项目)
https://www.aminer.cn/conf
https://www.paperdigest.org/conference-paper-digest/ #AI顶会论文
https://aclanthology.org/
https://www.yanxishe.com/meeting
https://zhuanlan.zhihu.com/arxivdaily
https://paperswithcode.com/area/natural-language-processing
https://github.com/sebastianruder/NLP-progress
https://github.com/makcedward/nlp
https://chinesenlp.xyz/
https://github.com/NiuTrans/ABigSurvey
相关技术:
大模型
大模型汇总:包含ChatGPT、ChatGLM、alpaca等
https://github.com/Hannibal046/Awesome-LLM
chatgpt-prompts-zh:提示工程中文教程
https://github.com/PlexPt/awesome-chatgpt-prompts-zh
ChatGLM训练与部署教程
https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md
预训练模型
- 语言模型
ngram语言模型
- kenlm(python)
https://github.com/kpu/kenlm
相关文档搜:使用kenLM训练语言模型 - srilm(Python)
https://srilm-python.readthedocs.io/en/latest/
数据:
-
同义词、反义词以及同义的强度
https://www.thesaurus.com/browse/happy?s=t ? -
My NLP toollet
https://github.com/aiainui/NLPToollet -
数据标注工具
精灵标注
http://www.jinglingbiaozhu.com/
其他
自然语言处理简介及主要研究方向
https://blog.csdn.net/Suyebiubiu/article/details/82563225
国内关于自然语言处理的研究方向细分
https://blog.csdn.net/yeziand01/article/details/80525672
自然语言处理nlp全领域综述
https://blog.csdn.net/lizhe_dashuju/article/details/81099900
NLP国内外相关学者
https://www.aminer.cn/
https://zhuanlan.zhihu.com/p/48529628
https://www.zhihu.com/question/24366306/answer/729914732
NLP领域国内外知名会议和期刊
https://blog.csdn.net/weixin_34613450/article/details/86679630
AI相关顶会
https://shimo.im/sheets/J3Hy3xTdv9QQJy8H/HRXvn
- 论文搜索技巧(https://www.douban.com/group/topic/144179135/):
①确定一组关键字:如果不能一次确定,可以逐步逼近
②确定搜索范围:我们应该从最专业的网站开始查起,比如NLP我们应该首先查看最近几年的ACL/EMNLP等;如果不确定,可以放宽范围,搜索引擎,图书馆,知网等, - 论文查询&下载地址如下:
https://sci-hub.tw/
https://sci-hub.ren/
https://arxiv.org/
https://gfsoso.99lb.net/scholar.html
国家图书情报中心、各类图书馆、知网
谷歌
百度学术
专业书下载:
https://b-ok.org/
学习方法&激励
学霸的作息是怎样的,为什么都不会困?
博士这五年
施一公《学习方法的报告》的演讲
多品读up-老烟斗的抗美援朝系列,无数英烈邱少云,黄继光,杨根思等激烈着我们,比起他们的拼搏和牺牲,学习太容易了。
综述关键词:
trend, review, survey
项目开发
项目开发过程中不得不思考的几点:
①标准定义:请反复打磨
②数据标注:请反复打磨,它决定了项目的成败
③验收标准:和业务定好验收标准,如果最终达不到,说明原因
④测试报告:
⑤不可忽视的优化思路:
卡阈值;
后处理/加规则;
请输出训练过程中模型的效果,它可能是业务需要的效果;
⑥测试集:
测试集尽量不要动;
业务方尽量不要提供给算法测试集,而是索要预测结果,防止打比赛拟合数据
⑦交接过程中,请给出一键运行到底且能复现效果的代码
⑧标注时:如有必要,可以用模型辅助标注,加快标注速度和准确率
...