![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 77
NLP的基础
云天徽上
机器学习爱好者
展开
-
【NLP-08】NLP的语料库整理
本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。史上最全开源中文 NLP 数据集:包括10大类、142条数据源,总有你钟意的那一款,后续将会对数据集进行动态更新;该数据集包含从PubMed摘要中提取的3984个医学句子,并注释了离散医学术语之间的关系。原创 2024-06-15 09:23:49 · 341 阅读 · 4 评论 -
【NLP-05】数据标注:windows10部署doccano标注工具及使用
$ doccano init$ doccano createuser --username my_admin_name --password my_password ( zxf 123456)打开浏览器(推荐使用Google),在地址栏中输入 http://127.0.0.1:8000/ 后回车即出现以下界面。登陆账户。点击右上角的LOGIN,输入Step 2中设置的用户名和密码登陆。创建项目。点击左上角的CREATE,跳转至以下界面。 勾选序列标注(Sequence Labeling)原创 2024-03-19 14:58:05 · 575 阅读 · 9 评论 -
【NLP-04】tranformers库保姆级使用教程---以BERT模型为例
Transformers库中的pipeline函数是一个非常方便的工具,可以直接使用预训练模型进行文本处理。我们已经探索了分词器的工作原理,并研究了分词 tokenizers、转换为输入 ID conversion to input IDs、填充 padding、截断 truncation和注意力掩码 attention masks。Transformers API 可以通过高级函数为我们处理所有这些。# 可以标记单个序列# 还可以一次处理多个序列"]# 可以根据几个目标进行填充# 还可以截断序列。原创 2024-03-11 15:16:07 · 3089 阅读 · 0 评论 -
【NLP-00】TF-IDF算法:原理、应用与介绍
介绍tf-idf的实现原理和应用领域原创 2024-03-06 15:43:48 · 1867 阅读 · 5 评论 -
【NLP-02】文本表达---词袋模型、TF-IDF、Word2Vec、Doc2Vec、FastText和Universal Sentence Encoder模型
NLP常见的句向量和词向量原创 2024-03-06 15:57:42 · 1433 阅读 · 0 评论 -
【NLP-01】文本相似度算法:Cosine Similarity、Levenshtein Distance、Word2Vec等介绍和使用
文本相似度计算的方法原创 2024-03-07 14:12:59 · 2855 阅读 · 0 评论 -
【NLP-03】 文本表达---BERT、RoBERTa、GPT和OpenAI_embedding等模型
预训练模型之后的文本表达范式原创 2024-03-07 09:29:02 · 1736 阅读 · 0 评论