NLP 基础&应用研究方向简介

介绍:

NLP 包含基础研究、应用研究两个方面,其中,基础研究包括数据相关以及分析相关,应用研究包括NLP本领域以及相关领域研究。

  • 1-1 数据(基础)相关:数据抓取、数据预处理(字符编码)、数据存储(数据库、图谱)、数据分析(数学)等
  • 1-2 分析相关: 词、句、篇等分析,比如:分词、序列标注、消歧/消解、关键词抽取、文本相似度、分类、句法分析等
  • 2-1 本领域:机器翻译、对话、问答、自动摘要、舆情分析、情感分析、阅读理解等
  • 2-2 相关领域:机器学习、搜索、推荐、ocr、asr、cv、tts等

1-1 数据(基础)相关

数据预处理


NLP 相关领域研究进展(论文&项目)

https://www.aminer.cn/conf
https://www.paperdigest.org/conference-paper-digest/ #AI顶会论文
https://aclanthology.org/
https://www.yanxishe.com/meeting
https://zhuanlan.zhihu.com/arxivdaily
https://paperswithcode.com/area/natural-language-processing
https://github.com/sebastianruder/NLP-progress
https://github.com/makcedward/nlp
https://chinesenlp.xyz/
https://github.com/NiuTrans/ABigSurvey


相关技术:

大模型

大模型汇总:包含ChatGPT、ChatGLM、alpaca等
https://github.com/Hannibal046/Awesome-LLM
chatgpt-prompts-zh:提示工程中文教程
https://github.com/PlexPt/awesome-chatgpt-prompts-zh
ChatGLM训练与部署教程
https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md

预训练模型

下载地址
https://huggingface.co/

- 语言模型

ngram语言模型

  • kenlm(python)
    https://github.com/kpu/kenlm
    相关文档搜:使用kenLM训练语言模型
  • srilm(Python)
    https://srilm-python.readthedocs.io/en/latest/

数据:

  • 同义词、反义词以及同义的强度
    https://www.thesaurus.com/browse/happy?s=t ?

  • My NLP toollet
    https://github.com/aiainui/NLPToollet

  • 数据标注工具
    精灵标注
    http://www.jinglingbiaozhu.com/

其他

自然语言处理简介及主要研究方向

https://blog.csdn.net/Suyebiubiu/article/details/82563225

国内关于自然语言处理的研究方向细分

https://blog.csdn.net/yeziand01/article/details/80525672

自然语言处理nlp全领域综述

https://blog.csdn.net/lizhe_dashuju/article/details/81099900

NLP国内外相关学者
https://www.aminer.cn/
https://zhuanlan.zhihu.com/p/48529628
https://www.zhihu.com/question/24366306/answer/729914732

NLP领域国内外知名会议和期刊
https://blog.csdn.net/weixin_34613450/article/details/86679630

AI相关顶会
https://shimo.im/sheets/J3Hy3xTdv9QQJy8H/HRXvn

  • 论文搜索技巧(https://www.douban.com/group/topic/144179135/):
    ①确定一组关键字:如果不能一次确定,可以逐步逼近
    ②确定搜索范围:我们应该从最专业的网站开始查起,比如NLP我们应该首先查看最近几年的ACL/EMNLP等;如果不确定,可以放宽范围,搜索引擎,图书馆,知网等,
  • 论文查询&下载地址如下:
    https://sci-hub.tw/
    https://sci-hub.ren/
    https://arxiv.org/
    https://gfsoso.99lb.net/scholar.html
    国家图书情报中心、各类图书馆、知网
    谷歌
    百度学术

专业书下载:
https://b-ok.org/

学习方法&激励

学霸的作息是怎样的,为什么都不会困?
博士这五年
施一公《学习方法的报告》的演讲

多品读up-老烟斗的抗美援朝系列,无数英烈邱少云,黄继光,杨根思等激烈着我们,比起他们的拼搏和牺牲,学习太容易了。

综述关键词:
trend, review, survey


项目开发

机器学习训练秘籍[吴恩达]

Huggingface Transformers实战教程

项目开发过程中不得不思考的几点:

①标准定义:请反复打磨
②数据标注:请反复打磨,它决定了项目的成败
③验收标准:和业务定好验收标准,如果最终达不到,说明原因
④测试报告:
⑤不可忽视的优化思路:
卡阈值;
后处理/加规则;
请输出训练过程中模型的效果,它可能是业务需要的效果;
⑥测试集:
测试集尽量不要动;
业务方尽量不要提供给算法测试集,而是索要预测结果,防止打比赛拟合数据
⑦交接过程中,请给出一键运行到底且能复现效果的代码
⑧标注时:如有必要,可以用模型辅助标注,加快标注速度和准确率

...
  • 4
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值