NLP
sdywtzymy
这个作者很懒,什么都没留下…
展开
-
Hugging Face Transformers 模型下载地址(以Pytorch Bert为例)
下载地址可以在transformers库对应的 ../site-packages/transformers/中找到 pytorch_model.bin, config.json, vocab.txt分别在configuration_bert.py,modeling_bert.py,tokenization_bert.py中 关于如何找到库在本地的路径,可以查看另一篇博客https://blog.csdn.net/sdywtzymy/article/details/106710134 为方便起见,实际对原创 2020-06-12 14:28:59 · 6835 阅读 · 2 评论 -
Kaggle NLP中文数据合集
Kaggle 部分NLP关联的数据集合集 Yet Another Chinese News Dataset 包含新闻的标题+内容+图片+url,包含简体中文和繁体中文 ~140k条信息 新闻联播(Chinese official daily news) 包含新闻的时间+分类(国内/国际etc)+标题+内容,简体中文 ~20k条信息 Douban Movie Short Comments Dataset 包含电影名英文+电影片中文+评论时间+用户名+评分+评价+点赞数,简体中文 ~1.963m条信息 Chin原创 2020-06-09 16:12:53 · 2080 阅读 · 0 评论 -
BERT入门教程学习心得 word embedding
来源Youtube上一个很棒的BERT Tutorial的视频 https://www.youtube.com/channel/UCoRX98PLOsaN8PtekB9kWrw Word Embedding 对word的编码实际表示了word之间的关联程度。 Bert是预训练好的 =>Bert中的单词编码是固定的 Bert拥有自己的LUT去查找对应的编码 对于不在这个表里的单词:Bert将未知的单词分成多个subword进行处理 FastText采用了类似的办法,但与F..原创 2020-06-22 10:31:12 · 907 阅读 · 0 评论