NLP学习 资料总结

NLP目前应用于7个重要领域:
1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。
2.信息抽取:从给定文本中抽取重要信息。通俗来说就是,了解谁在什么时候、什么原因、对谁做了什么、有什么结果。
3.文本挖掘:包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的界面表达。
4.机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。
5.信息检索:对大规模的文档进行索引。
6.问答系统:对一个自然语言表达的问题,由问答系统给出一个精准的答案。
7.对话系统:系统通过一些列的对话,跟用户进行聊天、回答、完成某一项任务。

funNLP,收集很多github上的包,遂整理了一下,后续会不断更新:
https://github.com/fighting41love/funNLP

自然语言处理(NLP)一些任务的总结:
https://www.jianshu.com/p/d80b065bdcf0

NLP分析技术的三个层面:
https://blog.csdn.net/puqutogether/article/details/41510977

信息抽取(Information Extraction)涵盖了哪些内容:
https://blog.csdn.net/blueorris/article/details/96633591

项目是一个基本包.封装了大多数nlp项目中常用工具:
https://github.com/NLPchina/nlp-lang

本项目目的在于构建一个标准化的NLP处理框架,提供企业级的API,以及各种推荐实现和测试包:
https://github.com/cocolian/cocolian-nlp

中文自然语言处理工具集:
https://github.com/kidden/nlp4han

word2vec java版本的一个实现:
https://github.com/NLPchina/Word2VEC_java

Word2Vec实现了常用的词语相似度和句子相似度计算:
https://github.com/jsksxs360/Word2Vec

中文分词工具探析:
https://www.cnblogs.com/en-heng/p/6225117.html
https://www.cnblogs.com/en-heng/p/6234006.html
https://www.cnblogs.com/en-heng/p/6274881.html
https://www.cnblogs.com/en-heng/p/6429355.html
https://www.cnblogs.com/en-heng/p/6559327.html
https://www.cnblogs.com/en-heng/p/8428504.html
https://www.cnblogs.com/en-heng/p/9167873.html

短文本分类:
https://blog.csdn.net/rensihui/article/category/9026831

all kinds of text classification models and more with deep learning:
https://github.com/brightmart/text_classification

THUCTC: 一个高效的中文文本分类工具:
https://github.com/thunlp/THUCTC

****

分词

史上最全中文分词工具整理:
https://blog.csdn.net/fendouaini/article/details/82027310

中文分词器分词效果评估对比:
https://github.com/ysc/cws_evaluation

Ansj分词:
https://github.com/NLPchina/ansj_seg
https://github.com/NLPchina/ansj_seg/tree/master/plugin

Stanford CoreNLP: A Java suite of core NLP tools:
https://github.com/stanfordnlp/CoreNLP
https://github.com/kno10/CoreNLPLucene

Deta_Parser分词:
https://github.com/yaoguangluo/Deta_Parser

HanLP分词:
https://github.com/hankcs/HanLP
https://github.com/hankcs/hanlp-lucene-plugin

IK分词:
https://gitee.com/wltea/IK-Analyzer-2012FF
https://github.com/yozhao/IKAnalyzer
https://github.com/magese/ik-analyzer-solr

Jcseg分词:
https://github.com/lionsoul2014/jcseg
https://github.com/lionsoul2014/jcseg/tree/master/jcseg-analyzer

jieba分词:
https://github.com/huaban/jieba-analysis
https://github.com/yida-lxw/jieba-analysis
https://github.com/huaban/elasticsearch-analysis-jieba
https://github.com/candowu/jieba-lucene-analiysis

MMSEG分词:
https://github.com/chenlb/mmseg4j-core
https://github.com/chenlb/mmseg4j-solr
https://github.com/medcl/elasticsearch-analysis-mmseg

MYNLP分词:
https://github.com/mayabot/mynlp/
https://github.com/mayabot/mynlp/tree/283aa86b2ac7c609151297cf8c39164f38c76489/modules/mynlp-lucene

NLP4J分词:
https://emorynlp.github.io/nlp4j/

NLPIR分词:
https://github.com/NLPIR-team/nlpir-analysis-cn-ictclas

THULAC分词:
https://github.com/thunlp/THULAC-Java
https://github.com/yizhiru/thulac4j
https://github.com/dreamszl/thulac-lucene

Java分布式分词组件 - word分词:
https://github.com/ysc/word
https://github.com/ysc/word/tree/a43cea6994b8c857495e1c9d27517a8ab7356d8a/src/main/java/org/apdplat/word

****

词性标注

Stanford CoreNLP依存关系分析、词性标注及句子主语分析:
https://blog.csdn.net/l919898756/article/details/81670228

HanLP词性标注集:
http://www.hankcs.com/nlp/part-of-speech-tagging.html#h2-8

MyNLP采用的词性标注集:
https://github.com/mayabot/mynlp/wiki/POS#%E8%AF%8D%E6%80%A7%E8%A1%A8

****


命名实体识别
 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

古月_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值