NLP
文章平均质量分 85
越来越胖的GuanRunwei
前WEB开发码农,.NET发烧友,前NLP菜鸡,利物浦大学在读博士
展开
-
NER简单综述
目录什么是NERNER相关综述类论文NER数据集、评测方法、工具库NER相关的数据集NER评测方法完全匹配松弛匹配NER工具库NER主要方法基于规则的方法无监督学习方法基于特征的监督学习方法深度学习方法BiLSTM+CRFIDCNN+CRFBert+BiLSTM+CRFFLATNER任务的demo代码NER的应用NER未来的研究方向References什么是NERNER全称是命名实体识别(Named Enti原创 2022-04-20 10:08:13 · 4690 阅读 · 0 评论 -
全网独家解决方案: doccano报错 Your models in app(s): ‘api‘ have changes that are not yet reflected in a migrat
报错在命令行中打开doccano时,系统报错:Your models in app(s): 'api' have changes that are not yet reflected in a migration, and so won't be applied. Run 'manage.py makemigrations' to make new migrations, and then re-run 'manage.py migrate' to apply them.问题分析我们.原创 2022-03-02 20:43:43 · 2771 阅读 · 0 评论 -
详解基于Encoder-Decoder的seq2seq
前言Seq2seq全称即为sequence to sequence,简而言之就是一个序列转换成另一个序列,它经常会被用于机器翻译这项任务。对于机器翻译这项任务,有一个较为漫长的发展过程。下面我将从传统机器翻译、统计机器翻译以及神经机器翻译三个阶段进行阐述。传统机器翻译传统机器翻译主要由两部分实现构建大量的翻译规则 构建一个大型的双语对照表这需要大量的经验积累,但人的精力和思想总是有限的,特别是在遇到中文这种有着复杂语法的语言时,传统机器翻译基本就嗝屁了。统计机器翻译统计机器.原创 2021-10-09 18:37:11 · 1297 阅读 · 0 评论 -
全网最通俗易懂的 Self-Attention自注意力机制 讲解
前言因工作需要,不得不再次将Transformer从尘封的记忆中取出。半年前学Transformer的时候只觉得模型好复杂,步骤好复杂,论文读完,想了好几天,感觉还是没有完全搞明白,仅仅是记住了一些专有名词,除了用于吹牛逼其余一无是处,因为内部的机理完全不明白,所以这些名词啊、公式啊转眼就忘。Self-attention是Transformer最核心的思想,这两天重新阅读了论文,有了一些新的感想,便急忙将其记下,与朋友们共勉。博主刚开始接触self-attention时,最不理解的地方就是Q原创 2021-10-04 15:40:29 · 70019 阅读 · 70 评论 -
详解RNN变体——LSTM
翻了一圈博客发现之前没写,正好最近要开始写这一块的算法,就当重新回顾一下了。目录前言RNN结构LSTM整个流程前言循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。对循环神经网络的研究始于二十世纪80-90年代,并在二十一世纪初发展为深度学习(deep learni原创 2021-10-02 17:43:12 · 468 阅读 · 0 评论 -
Datawhale_day6
划水打卡,以防忘记,回头再补原创 2020-08-03 21:05:35 · 181 阅读 · 0 评论 -
Daywhale_day5
分词:import jiebaimport jieba.analyseimport jieba.posseg as psegimport codecs, sysdef cut_words(sentence): # print sentence return " ".join(jieba.cut(sentence)).encode('utf-8')f = codecs.open('wiki.zh.jian.text', 'r', encoding="utf8")tar原创 2020-07-29 15:43:26 · 172 阅读 · 0 评论 -
Datawhale_day4
import pandas as pdimport fasttextimport osfrom sklearn.metrics import f1_score# 转换为fasttext需要的形式data_set = os.path.join(os.getcwd(), "数据集\\train_set.csv\\train_set.csv")train_df = pd.read_csv(data_set, sep='\t', nrows=15000)train_df['label_ft'] =.原创 2020-07-27 15:12:20 · 166 阅读 · 0 评论 -
Datawhale_day1
赛题理解赛题名称:零基础入门NLP之新闻文本分类 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据 完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票原创 2020-07-21 15:43:14 · 171 阅读 · 0 评论 -
NLP思维导图
先奉上GitHub地址:https://github.com/graykode/nlp-roadmapnlp-roadmap 是 Natural Language Processing 的路线图(思维导图)注意! 关键字之间的关系可以多种方式来解释,因为它们以语义思维导图的格式表示。请只关注方格中的关键字,并将其视为学习的基本组成部分。 仅在图...转载 2020-03-28 21:34:09 · 1192 阅读 · 0 评论 -
selenium+phantomjs进行自动化百度搜索并提取搜索数据
from selenium import webdriverfrom selenium.webdriver.support import expected_conditionsfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.common.exceptions import NoSuchElemen...原创 2020-03-21 16:21:24 · 780 阅读 · 0 评论 -
朴素贝叶斯分类:原理
https://blog.csdn.net/qiu_zhi_liao/article/details/90671932转载 2020-03-20 09:55:17 · 166 阅读 · 0 评论 -
TF-IDF算法之关键词提取
本文转载自阮一峰老师的博文,原文地址:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html)————————————————————————————————————————这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extractio...转载 2020-03-19 10:49:42 · 629 阅读 · 0 评论 -
中文版详解gensim中的FastText模块(官方文档翻译)
引文众所周知,在进行文本相似度分析时,我们可以用到gensim中的word2vec来构建词向量以描述词语之间的矢量关系从而实现相似度的计算。但是word2vec有一个很大的局限性,那就是该模型无法推断出不熟悉的单词的向量。如果这个限制了你的装逼,那就请查看FastText模型(官网也是这么说的)。什么时候使用FastTextFastText背后的主要原理是,单词的词法结构会...原创 2020-03-07 12:46:51 · 8342 阅读 · 8 评论 -
自然语言处理(NLP)词法分析--词性标注原理与工具
https://blog.csdn.net/weixin_41657760/article/details/92799065转载 2020-02-04 10:33:40 · 957 阅读 · 0 评论 -
自然语言处理(NLP)词法分析--文本关键词提取
https://blog.csdn.net/weixin_41657760/article/details/92410925转载 2020-02-04 10:14:32 · 929 阅读 · 0 评论