nlp
文章平均质量分 75
甜果果2333
这个作者很懒,什么都没留下…
展开
-
NLP 常用模型和数据集高速下载
楔子由于大部分 NLP 的模型和数据集都在国外,导致国内下载速度实在感人😭。好在有很多 NLP 的框架内置了很多数据集,都是国内链接,亲测下载速度很快,本文汇总一下一些我见到的国内链接,文末感谢这些平台提供的存储和下载服务。正文模型模型 文件名称 下载链接 bert-base-cased 下载 bert-base-chinese 下载 bert-base-uncased 下载 bert-chinese-wwm-ex转载 2022-04-29 12:40:29 · 2176 阅读 · 3 评论 -
bert-base-uncased下载地址
PRETRAINED_MODEL_ARCHIVE_MAP = {undefined 'bert-base-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased.tar.gz", 'bert-large-uncased': "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased.ta...原创 2022-04-25 15:20:06 · 1257 阅读 · 0 评论 -
ACL 2022 主会长文论文分类整理
导读ACL 2022是CCF A类会议,人工智能领域自然语言处理(Natural Language Processing,NLP)方向最权威的国际会议之一。第60届计算语言学协会计划于今年5月22日-5月27日在爱尔兰都柏林召开。官方发布的接收论文列表:Accepted Papers(https://www.2022.aclweb.org/papers) 目录 Adversarial attack and Robustness【对抗攻击和鲁棒性】 Dialogu.转载 2022-04-22 10:30:15 · 2013 阅读 · 0 评论 -
Python 字符串相似性的几种度量方法
字符串的相似性比较应用场合很多,像拼写纠错、文本去重、上下文相似性等。评价字符串相似度最常见的办法就是:把一个字符串通过插入、删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种就是编辑距离(edit distance)度量方法,也称为Levenshtein距离。海明距离是编辑距离的一种特殊情况,只计算等长情况下替换操作的编辑次数,只能应用于两个等长字符串间的距离度量。其他常用的度量方法还有 Jaccard distance、J-W距离(Jaro–Winkler distance原创 2022-04-11 20:40:59 · 1191 阅读 · 0 评论 -
NLP之关键词提取
关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。关键词提取算法一般分为有监督和无监督两类有监督的关键词提取方法主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果。优点是精度较高,缺点是需要大批量的标注数据,人工成本过高,并且...转载 2019-03-01 14:53:27 · 2397 阅读 · 0 评论 -
Mac下载安装nlp处理工具pyltp及其python实现
一、操作环境二、编译安装pyltp三、填充pyltp中的空ltp文件夹四、python处理NLP问题还需调用模型文件pyltp 是哈工大出品的NLP处理工具,是LTP的 Python 封装。该工具提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能,关于各个模块任务的介绍可以查阅这里的介绍。原文链接:https://blog.csdn.net/huach...转载 2019-03-21 18:42:28 · 415 阅读 · 0 评论 -
自然语言处理时,通常的文本清理流程是什么?
原文:https://www.zhihu.com/question/268849350/answer/486543276本文作者:@Aaron Yang我们以英文文本处理为例。大致分为以下几个步骤:Normalization Tokenization Stop words Part-of-Speech Tagging Named Entity Recognition St...转载 2019-04-01 10:42:39 · 977 阅读 · 0 评论 -
Word Embedding与Word2Vec
原文链接:https://blog.csdn.net/baimafujinji/article/details/77836142转载 2019-06-29 23:34:00 · 451 阅读 · 0 评论