![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 60
桉夏与猫
啥啥啥?这都是啥?
展开
-
常见的归一化方式介绍与实现
数据归一化(数据标准化)概念:数据标准化(归一化)是处理数据挖掘的一项基本工作,不同的评价指标往往具有不同的量纲(举例:对于房价评价时,楼房面积、房价、楼层等信息。举例2:对于个人患病率就有身高、体重等信息)和量纲单位(举例:面积单位:平方米、平方厘米等),会影响到数据分析的结果,为了消除指标之间的影响,需要进行标准化处理,解决数据之间的可比性。经过标准化后,各个指标处于同一量级,适合进行综合对比讨论。归一化的优点1、归一化后加快梯度下降的速度2、归一化有可能提高精度方法一:min-原创 2021-12-27 11:52:37 · 3827 阅读 · 0 评论 -
学术——获取参考文献格式
1、百度学术百度学术地址:https://xueshu.baidu.com/通过直接搜索希望获取的论文标题,跳转到以下页面:在论文信息的下方有个引用,点击引用后,分别有三种论文的引用格式。2、使用Google学术镜像一个Google学术镜像网站:https://ac.scmor.com/通过选择合适的镜像网址,检索希望查找的论文标题点击双引号,会列出所有的引用格式常用的引用格式:GB/T 7714、MAL、APA的区别1.《GB/T 7714》..原创 2021-09-09 10:55:42 · 2277 阅读 · 0 评论 -
关系抽取任务中的一些术语
简写 英文全称 中文全称 RE Relation Extraction 关系抽取 KB Knowledge Base 知识库 KG Knowledge Graph 知识图谱 DSRE Distant Supervision Relation extraction 远程监督关系抽取 CNNs Convolution Neural Networks 卷积神经网络 GNNs Graph Neural Networ原创 2021-05-07 15:52:15 · 239 阅读 · 0 评论 -
使用pytorch的LSTM实现MNIST数据集分类任务
使用pytorch的LSTM实现MNIST数据集分类任务"""__author__:shuangrui Guo__description__:"""import torchimport torch.nn as nnimport torch.optim as optimimport torchvisionfrom torchvision import transformsfrom torch.utils.data import DataLoaderclass Rnn_LSTM(.原创 2021-05-05 12:20:41 · 1428 阅读 · 0 评论 -
感知机算法原理与多种python实现方式结果可视化
感知器算法什么是感知器:感知器是根据输入数据的特征向量x,对其进行二分类的一种线性分类模型。f(x)=sign(w⋅x+b)感知器是一个分类器,对于输入空间内的实例划分为正负两类超平面,属于判别模型!比如:有两组数据作为训练集,其中的类别是A和B,在训练完成后,通过给定一个测试数据,感知器能够将其分成A或者B感知器模型:(图中有错误,最下面的x0应该是xn)感知器包括多个输入节点,从x1-xn,有多个权重矩阵W0-Wn。一个输出节点O,激活函数使用Sigh函数,最后输出的原创 2021-04-09 10:26:30 · 2560 阅读 · 1 评论 -
Gensim库的使用——Word2vec模型(二)训练自己的模型与训练参数
训练自己的Word2vec模型为了能够训练自己的Word2vec模型,你需要有一些数据,这里用Lee Evaluation 语料库来进行训练。这个语料库足够小(一共300条数据),而且可以完全加载进内存当中,但是!在实际的应用中你往往不能够直接加载很大的语料库进内存,所以首先来实现一个迭代器来逐行的读取文件:from gensim.test.utils import datapathfrom gensim import utilsclass MyCorpus: def __iter原创 2021-04-06 21:13:27 · 7003 阅读 · 1 评论 -
Gensim库的使用——Word2vec模型(一)模型的简单介绍与加载预训练的模型进行测试
Word2vec模型介绍一下Word2vec模型以及在Lee Evaluation语料库上进行使用import logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',level=logging.INFO)Word2vec是一种基于神经网络的而且被广泛使用的算法,也可以看成“深度学习”的一种算法,虽然它本身层次可能并不深。Word2vec通过使用大量的没有注释过的文本,自动的学习单词之间的原创 2021-04-06 20:16:54 · 5853 阅读 · 1 评论 -
transformers库的使用【二】tokenizer的使用,模型的保存自定义
使用标记器(tokenizer)在之前提到过,标记器(tokenizer)是用来对文本进行预处理的一个工具。首先,标记器会把输入的文档进行分割,将一个句子分成单个的word(或者词语的一部分,或者是标点符号)这些进行分割以后的到的单个的word被称为tokens。第二步,标记器会把这些得到的单个的词tokens转换成为数字,经过转换成数字之后,我们就可以把它们送入到模型当中。为了实现这种能把tokens转换成数字的功能,标记器拥有一个词表,这个词汇表是在我们进行实例化并指明模型的时候下载原创 2021-04-01 19:27:54 · 16264 阅读 · 3 评论 -
transformers库的使用【一】——pipeline的简单使用
transformers库的使用使用pipeline API来快速使用一些预训练模型使用预训练模型最简单的方法就是使用pipeline(),transformers提供了一些任务:1、情感分析(Sentment analysis):分析文本是正面的还是负面的2、文本生成(in English):提供一个语句,模型将生成这条语句的下一句3、命名实体识别(NER):在输入的语句中,对每个单词进行标记,来揭示该单词的含义(比如人物、地点等等)4、问题回答:输入一段文本以及一个问题,来从文本原创 2021-04-01 15:10:26 · 10765 阅读 · 3 评论 -
点互信息(PMI)和正点互信息(PPMI)
最近在看代码的时候,发现论文用到了PPMI,索性这里记录一下两个概念:PMI(点互信息)用来衡量两个事物之间的相关性公式如下如何理解?在概率论当中,如果说x与y两个变量无关,那么p(x,y)就等于p(x)p(y)如果说x与y越相关,那么p(x,y)与p(x)p(y)的比值就越大为了更好理解,这里有一个例子:分母19是所有的词对共同出现的总次数(1+1+1+1+2+1+1+1+6+4)这里的例子进行理解的时候,先是红色框的0.32,是根据当前词原创 2021-03-29 22:30:35 · 4134 阅读 · 0 评论 -
ValueError: [E1005] Unable to set attribute ‘LEMMA‘ in tokenizer
nlp.tokenizer.add_special_case(u'Frisco', sf_special_case) File "spacy\tokenizer.pyx", line 601, in spacy.tokenizer.Tokenizer.add_special_case File "spacy\tokenizer.pyx", line 589, in spacy.tokenizer.Tokenizer._validate_special_caseValueError: [E1005.原创 2021-03-27 09:21:01 · 372 阅读 · 0 评论 -
transformers、pytorch-transformers、pytorch-pretrained-bert的使用与介绍
一、transformers、pytorch-transformers、pytorch-pretrained-bert三者的关系网上的一些介绍是“transformers包又名pytorch-transformers或者pytorch-pretrained-bert”但是根据一些了解,实际上transformers库是最新的版本(以前称为pytorch-transformers和pytorch-pretrained-bert)所以它在前两者的基础上对一些函数与方法进行了改进,包括一些函数可能只有原创 2021-03-15 19:32:58 · 6314 阅读 · 0 评论