NLP
关于NLP的知识点
SimonChenHere
PhD Candidate,计算机本,人工智能硕,网络安全博。
展开
-
LSTM block和cell区别
https://www.cnblogs.com/pomodoro/archive/2004/01/13/9272608.html原创 2020-12-26 17:14:55 · 611 阅读 · 0 评论 -
预训练模型分类体系
原创 2020-09-14 09:07:19 · 466 阅读 · 0 评论 -
专有词汇
1.GNNnode degree图论:节点度节点度是指和该节点相关联的边的条数,又称关联度。in-degree入度对于有向图,节点的入度是指进入该节点的边的条数out-degree出度对于有向图,节点的出度是指从该节点出发的边的条数导管$1节点度...原创 2020-09-05 20:45:43 · 214 阅读 · 0 评论 -
Tokenisation &word segmentation & sentence segmentation
David D. Palmer Chapter 2: Tokenisation and SentenceSegmentation.2000https://scholar.google.com/citations?user=flDouC0AAAAJ&hl=zh-CNword segmentation 和 tokenlization一样,但sentence segmentation不同。Tokenisation is the process of breaking up the sequen.原创 2020-07-20 01:56:05 · 537 阅读 · 0 评论 -
文本粒度
文本粒度所谓文本粒度,关于查找引擎而言:粒度是衡量文本所含信息量的巨细。文本含信息量越多,粒度就越大,反之就小。有人会说那简略啊,当然词越长含有的信息量就越大,你断定?那木木SEO通知你一个小玩意:肌联蛋白是当前已知的最大蛋白质,姓名足足有189819个字母,是当之无愧最大的单词。这个单词的信息量是有多大?闲话不多说,先来看下面几组词中,哪些的粒度大,哪些的粒度小。萝卜、葡萄、乒乓龙井、篮球、赤色、橡皮檫踢球、拔河、谈恋爱、爬山高清电视机、南非双人游、呼叫中间体系榜首组词由两个字组成,可是仅原创 2020-07-09 21:16:43 · 1487 阅读 · 0 评论 -
数据集集合
NLP:最全中文自然语言处理数据集、平台和工具整理 https://zhuanlan.zhihu.com/p/70355773原创 2020-06-09 20:46:48 · 422 阅读 · 0 评论 -
keras_contrib 安装
安装keras_contribpip install git+https://www.github.com/keras-team/keras-contrib.git原创 2020-05-26 13:17:31 · 720 阅读 · 0 评论 -
albert生成词向量
等待更新。原创 2020-05-26 12:37:10 · 1324 阅读 · 0 评论 -
BERT生成词向量
等待更新。。。。原创 2020-05-26 12:36:30 · 1132 阅读 · 0 评论 -
训练集、验证集、测试集详解和极其作用
先用一个不恰当的比喻来说明3种数据集之间的关系:训练集相当于上课学知识验证集相当于课后的的练习题,用来纠正和强化学到的知识测试集相当于期末考试,用来最终评估学习效果转载 2020-05-26 00:15:49 · 5457 阅读 · 0 评论 -
NLP相关学习资料
awesome-sentence-embedding A curated list of pretrained sentence andword embedding modelshttps://github.com/Separius/awesome-sentence-embeddinghttps://separius.github.io/awesome-sentence-embedding/原创 2020-05-24 22:52:13 · 290 阅读 · 0 评论 -
albert使用的中文语料
https://github.com/CLUEbenchmark/CLUE原创 2020-05-12 02:31:41 · 749 阅读 · 0 评论 -
win10安装stanza及简单使用
安装tourch1.4 pip install torch=1.4.0 torchvision=0.5.0 -fhttps://download.pytorch.org/whl/torch_stable.html可以支持cuda10.0,其的版本可以使用import torchprint(torch.cuda.is_available()来检查是否支持cudaWindows下pip安装stanza时可能会出现错误,需自行先安装PyTorch。安装stanza:参考:https://.原创 2020-05-11 15:13:24 · 2427 阅读 · 0 评论 -
用每日新闻预测金融市场变化
以下代码是使用pycharm新建的ipynb文件,可以使用pycharm和jupyter Notebook编译。#%%import pandas as pdimport numpy as npfrom sklearn.metrics import roc_auc_scorefrom datetime import date#%%# 监视数据# 我们先读入数据。这里我提供了一个已经...原创 2020-04-30 22:51:22 · 574 阅读 · 0 评论 -
BERT论文的解读 PPT
此文是我在实验室例会上汇报的关于BERT的PPT,供诸君参考。代码在我的GitHub上:https://github.com/idiotprofessorchen/BERT数据集是MRPC...原创 2020-04-26 17:17:11 · 7953 阅读 · 3 评论