![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
今天NLP了吗
这个作者很懒,什么都没留下…
展开
-
【备忘录】python翻译包
from google_trans_new import google_translatortrans_content = []t = google_translator(timeout=10)for cc in data['query'].values: try: translate_text = t.translate(cc, lang_tgt='zh-cn', lang_src='en') trans_content.append(translate_te原创 2021-06-30 09:38:01 · 311 阅读 · 0 评论 -
【备忘录】transformers tokenizer.tokenize和tokenizer.encode
from transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained('hfl/chinese-bert-wwm')text = '在此基础上,美国试图挑拨伊朗和伊拉克关系。'tokenizer_out = tokenizer.tokenize(text)print(tokenizer_out)['在', '此', '基', '础', '上', ',', '美', '国', '试',原创 2021-01-17 10:42:10 · 2524 阅读 · 1 评论 -
膨胀卷积 Dilated Convolution
与标准的卷积不同,膨胀卷积在核中添加了一些空洞,也就是对卷积核进行0填充,可以看到感受野变大了。通常情况下,卷积之后再pooling以增加感受野,或者使用多个滤波器堆叠也可以增大感受野。但是,pooling操作会造成信息损失,这是不可逆转的。为了避免使用pooling损失信息,引入了膨胀卷积。正常默认dilation=1,设置为2的时候,表示卷积的空洞为1.每隔一个操作,感受野变大了弊端长距离信息有时候并不相关,丢失了信息的连续性。可以不同的卷积核采用不同的dilation,例如最常见的1转载 2020-12-10 21:01:14 · 509 阅读 · 0 评论 -
【吴恩达深度学习】CNN
valid / same paddingstride三维卷积原创 2020-12-10 19:13:19 · 125 阅读 · 0 评论 -
《Character-Based LSTM-CRF with Radical-Level Features for Chinese Named Entity Recognition》论文解读
BILSTM+CRF 命名实体识别关键技术调研实现系统的核心思想和算法描述数据集核心思想及算法描述系统主要模型流程表示层读取数据分批次输入数据词嵌入BILSTM层隐藏层CRF层模型评估分析准确率和召回率F1关键技术调研命名实体识别是自然语言处理中的一项基础又关键的技术。命名实体通常指的是文本中具有特别意义的实体,例如人名、地名、组织机构名等等。根据他的定义,可以预见,NER的关键在于,实体边界定义是否准确、实体标签预测是否准确。NER有四种常用的方法,一是基于规则和词典的方法,不需要标注数据,依赖人工规原创 2020-09-23 22:59:22 · 1388 阅读 · 1 评论 -
【踩坑】RuntimeError: index out of range: Tried to access index 30522 out of table with 30521 rows.
使用huggingface下载torch版本的bert-base-chinese预训练模型,格式如上图。indexed_tokens = self.tokenizer.convert_tokens_to_ids(token)在这里把token转成id,但是由于下载的vocab名称是"bert-base-chinese-vocab.txt",默认读取的vocab名称是“vocab.txt”。应当将其改名为vocab.txt踩坑下载的模型自带英文的vocab.txt,我不知道要改名,或者把他的删.原创 2020-09-21 20:17:14 · 3383 阅读 · 0 评论