
NLP/第三方库
自然语言处理/第三方库
u013250861
这个作者很懒,什么都没留下…
展开
-
自然语言处理(NLP)-第三方库(工具包):CRF++【通用领域命名实体识别库】【CRF++是CRF算法的一个实现】【在专业领域(电商、医药等)中的效果不好】
二、利用crf++进行实体识别的流程利用crf++进行实体识别的流程确定标签体系;确定特征模板文件;处理训练数据文件;模型训练。1、确定标签体系大部分情况下,标签体系越复杂准确度也越高,但相应的训练时间也会增加。因此需要根据实际情况选择合适的标签体系。2、确定模板文件特征模版是一个文本文件,其内容如下所示,其中每行表示一个特征。如下模板使用了unigram特征,并且仅以字符本身作为特征而不考虑其他特征。除当前字符外,还使用了其前后3个字,以及上下文的组合作为特征。CRF++会根据特.原创 2022-05-04 16:31:25 · 415 阅读 · 0 评论 -
人工智能-第三方库(工具包):SHAP【可解释性机器学习】
可解释机器学习在这几年慢慢成为了机器学习的重要研究方向。作为数据科学家需要防止模型存在偏见,且帮助决策者理解如何正确地使用我们的模型。越是严苛的场景,越需要模型提供证明它们是如何运作且避免错误的证据关于模型解释性,除了线性模型和决策树这种天生就有很好解释性的模型意外,sklean中有很多模型都有importance这一接口,可以查看特征的重要性。其实这已经含沙射影地体现了模型解释性的理念。只不过传统的importance的计算方法其实有很多争议,且并不总是一致。有兴趣可以之后阅读相关文章 permutat原创 2022-03-24 23:37:25 · 2451 阅读 · 0 评论 -
用Bertviz可视化Attention Weight、Position Embedding
去年Google的BERT在NLP界可谓是掀起了一阵飓风,后续跟进的工作很多,实际中也确实是好用得很。其中github上一个叫Bertviz的项目还挺有意思的,这个项目可以把BERT模型里的self-attention等信息可视化出来,由此窥到一些模型的内在性质。之前看到介绍后简单试过,最近又稍微认真玩了玩。作者的原文介绍里提到BERT模型里部分attention head的确存在明显的位置或语义特征。本来我想分析下BERT在实际句子里是怎么encode位置信息的,不过搞了一会也没看出个究竟来,毕竟神经网原创 2022-03-24 16:13:08 · 2548 阅读 · 0 评论 -
wandb(Weights & Biases):深度学习轻量级可视化工具【自动记录模型训练过程中的超参数和输出指标,然后可视化和比较结果】
wandb是Weights & Biases的缩写,这款工具能够帮助跟踪你的机器学习项目。它能够自动记录模型训练过程中的超参数和输出指标,然后可视化和比较结果,并快速与同事共享结果。通过wandb,能够给你的机器学习项目带来强大的交互式可视化调试体验,能够自动化记录Python脚本中的图标,并且实时在网页仪表盘展示它的结果,例如,损失函数、准确率、召回率,它能够让你在最短的时间内完成机器学习项目可视化图片的制作。总结而言,wandb有4项核心功能:看板:跟踪训练过程,给出可视化结果报告:保存原创 2022-03-21 23:15:00 · 1071 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):Milvus【向量最邻近检索工具】
自然语言处理(NLP)-第三方库(工具包):Milvus【向量最邻近检索工具】原创 2022-02-27 23:02:35 · 276 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):FastSum【基于fastNLP开发的文本摘要解决方案,包括数据加载、模型调用、模型评价】【实现模型:Seq2Seq、PGNet、BertSum】
FastSum是基于fastNLP开发的一套完整的文本摘要任务解决方案,包括数据加载、模型调用、模型评价三个部分。FastSum中实现的模型包括:基准模型 (LSTM/Transformer + SeqLab)Get To The Point: Summarization with Pointer-Generator NetworksExtractive Summarization as Text MatchingText Summarization with Pretrained Encode原创 2022-02-25 22:53:51 · 506 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):Annoy 【向量最邻近检索工具】
自然语言处理(NLP)-第三方库(工具包):Annoy 【向量最邻近检索工具】参考资料:推荐系统的向量检索工具: Annoy & Faiss原创 2022-02-22 15:55:12 · 504 阅读 · 0 评论 -
NLP-分类模型-2016-文本分类:FastText【使用CBOW的模型结构;作用:①文本分类、②训练词向量、③词向量模型迁移(直接拿FastText官方已训练好的词向量来使用)】【基于子词训练】
作为NLP工程领域常用的工具包, fasttext有两大作用:- 进行文本分类- 训练词向量fasttext工具包的优势:正如它的名字, 在保持较高精度的情况下, 快速的进行训练和预测是fasttext的最大优势.fasttext优势的原因:- fasttext工具包中内含的fasttext模型具有十分简单的网络结构.- 使用fasttext模型训练词向量时使用层次softmax结构, 来提升超多类别下的模型性能.- 由于fasttext模型过于简单无法捕捉词序特征, 因此会进行n-gra原创 2021-02-28 22:18:53 · 2448 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):fastNLP
自然语言处理(NLP)-第三方库(工具包):fastNLP原创 2022-02-20 00:30:33 · 409 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):PaddleNLP【飞桨自然语言处理核心开发库,拥有覆盖多场景的模型库、简洁易用的全流程API与动静统一的高性能分布式训练能力】
自然语言处理(NLP)-第三方库(工具包):PaddleNLP【飞桨自然语言处理核心开发库,拥有覆盖多场景的模型库、简洁易用的全流程API与动静统一的高性能分布式训练能力】参考资料:PaddleNLP官网GitHub源码:PaddleNLP...原创 2022-02-20 00:26:39 · 333 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):WMD【文本相似度计算】
自然语言处理(NLP)-第三方库(工具包):WMD【文本相似度计算】参考资料:使用WMD计算文本相似度度量计算文本相似度_使用WMD计算文本相似度度量原创 2022-02-19 23:15:00 · 532 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):AllenNLP【用于构建各种NLP模型的库;基于PyTorch】
自然语言处理(NLP)-第三方库(工具包):AllenNLP【用于构建各种NLP模型的库;基于PyTorch】原创 2022-02-13 22:29:12 · 423 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):OpenNMT【开源NMT工具;神经机器翻译工具】
参考资料:https://opennmt.net/GitHub:OpenNMT原创 2021-09-27 22:26:58 · 442 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):Stanford CoreNLP(更适合英文数据集)【命名实体识别、分词、词性标注、依存句法分析、语义角色标注】【利用Java开发;有Jar包可供调用】
自然语言处理(NLP)-第三方库(工具包):Stanford CoreNLP【更适合英文数据集;分词,词性标注,句法分析】原创 2021-04-04 18:11:56 · 2663 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):NLTK(更适合英文数据集,在中文数据集上效果不好)【命名实体识别、分词、词性标注、依存句法分析、语义角色标注、语料库】
NLTK是构建Python程序以使用人类语言数据的领先平台。它为50多种语料库和词汇资源(如WordNet)提供了易于使用的界面,还提供了一套用于分类,标记化,词干化,标记,解析和语义推理的文本处理库,用于工业级NLP库的包装器,和积极的讨论论坛。由于实践指南介绍了编程基础知识以及计算语言学的主题,以及全面的API文档,NLTK适用于语言学家,工程师,学生,教育工作者,研究人员和行业用户等。 NLTK适用于Windows,Mac OS X和Linux。最重要的是,NLTK是一个免费的,开源的,社区驱动的项目原创 2021-02-03 23:43:50 · 1028 阅读 · 0 评论 -
深度学习-自然语言处理(NLP)-第三方库(工具包):sumy【抽取网页、文本、文件中的“关键句”】
一、抽取中文文章的关键句【自动摘要】#!usr/bin/env python# encoding:utf-8from __future__ import division'''__Author__:沂水寒城功能:基于开源模块sumy的简单文本摘要文本摘要方法参考学习可以借鉴阮一峰下面的文章:http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html'''from sumy.nlp.stemmers impor原创 2021-04-10 16:13:24 · 888 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):spaCy(更适合英文数据集)【命名实体识别、分词、词性标注、依存句法分析、语义角色标注】
人工智能-自然语言处理(NLP):NLP技术的四个维度【声音/Phonetics、单词/Morphology、句子结构/Syntax、语义/Semantic】原创 2021-02-03 23:29:37 · 1492 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):LTP(适合中文数据集)【命名实体识别、分词、词性标注、依存句法分析、语义角色标注】
人工智能-深度学习-生成模型:GAN经典模型–>VAEGAN原创 2021-01-02 23:44:24 · 3954 阅读 · 1 评论 -
自然语言处理(NLP)-第三方库(工具包):HanLP(更适合中文数据集)【命名实体识别、分词、词性标注、依存句法分析、语义角色标注】
深度学习-自然语言处理(NLP)-第三方库(工具包):HanLP(更适合中文数据集)【命名实体识别、分词、词性标注、依存句法分析、语义角色标注】原创 2021-03-28 21:09:52 · 999 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):torchtext【pytorch自带的文本相关Api】、torchvison【pytorch自带的图片相关Api】
深度学习-自然语言处理(NLP)-第三方库(工具包):torchtext【pytorch自带的Api】原创 2021-03-02 23:16:24 · 491 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):jieba【中文分词】
深度学习-自然语言处理(NLP)-第三方库(工具包):jieba【中文分词】原创 2021-03-28 21:08:43 · 473 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):HowNet
自然语言处理(NLP)-第三方库(工具包):HowNet原创 2021-04-02 11:13:35 · 494 阅读 · 0 评论 -
人工智能-机器学习-第三方库(工具包):Levenshtein工具包【计算编辑距离、汉明距离、jaro距离、Jaro–Winkler距离...】
参考资料:Python文本相似性计算之编辑距离详解原创 2021-04-06 09:14:59 · 437 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):SRILM
自然语言处理(NLP)-第三方库(工具包):SRILM原创 2021-04-04 18:12:56 · 291 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):OpenNLP
自然语言处理(NLP)-第三方库(工具包):OpenNLP原创 2021-04-04 18:11:11 · 614 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):fairseq【NMT框架】【To learn Neural Machine Translation? Fairseq is all you need. 】
参考资料:编辑距离 计算使用编辑距离计算文本相似度最小编辑距离(Levenshtein)的 Python 实现编辑距离算法详解:Levenshtein Distance算法一个快速、高效的Levenshtein算法实现使用优化的Levenshtein算法查找最接近的邻居...原创 2021-04-06 09:19:28 · 384 阅读 · 0 评论 -
深度学习-自然语言处理(NLP)-第三方库(工具包):Synonyms【更好的中文近义词、聊天机器人、智能问答工具包】
更好的中文近义词:聊天机器人、智能问答工具包。synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。...原创 2021-04-01 21:19:58 · 1190 阅读 · 1 评论 -
自然语言处理(NLP)-第三方库(工具包):WordNet(在nltk.corpus下)【英文:同义词、反义词、蕴含关系、语义相似度】
自然语言处理(NLP)-第三方库(工具包):WordNet(在nltk.corpus下)【英文:同义词、反义词、蕴含关系、语义相似度】原创 2021-04-02 11:03:45 · 1696 阅读 · 0 评论 -
自然语言处理(NLP)-第三方库(工具包):summa【抽取文本中的“关键词”、“关键句” 】【基于TextRank】
from summa import summarizerfrom summa import keywordsif __name__ == "__main__": text = """ Automatic summarization is the process of reducing a text document with a computer program in order to create a summary that retains the most importa原创 2021-04-10 16:43:53 · 892 阅读 · 0 评论 -
机器学习-第三方库(工具包):Gensim【包括多个模块:TF-IDF、词向量(Word2vec、GloVe);语料库;主题模型(LSA、LDA);】
人工智能-机器学习-第三方库(工具包):Gensim【用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。 支持包括TF-IDF、LSA、LDA等多种主题模型】原创 2021-04-11 22:00:21 · 500 阅读 · 0 评论