自然语言
文章平均质量分 50
_我走路带风
To save time is to lengthen life.
展开
-
自然语言菜鸟学习笔记(八):激活函数
目录前言为什么要激活函数?几种激活函数SigmoidTanhReLULeaky-ReLUELU激活函数的选择前言学自然语言的时候,也不知道咋回事,就是头冷。为什么要激活函数?比如说对于一个神经网络,我们不用激活函数是一个什么样纸?那么我们可以假想激活函数是 f(x) = x,因为没有用激活函数嘛,也就是 y = x一个线性的存在,神经网络的结构是...原创 2019-07-15 20:12:04 · 471 阅读 · 0 评论 -
如何解决apt-get中Unmet dependencies问题
简介新安装的Ubuntu 16.04 TLS系统,由于apt-get upgrade过程中断,导致依赖损坏;安装新的包时,提示Unmet dependencies问题。本文记录了问题的排查方法及解决方案问题描述系统由于未知原因,在系统重启后,发现安装包时提示了Unmet dependencies提示,无法正常安装。hadoop@hadoop-virtualbox:~$ sudo ap...转载 2018-12-14 16:43:17 · 10323 阅读 · 2 评论 -
自然语言菜鸟学习笔记(四):马尔可夫理论&隐马尔可夫模型理论及实现
我们今天通过隐马尔可夫对中文的词进行标注词性标注汉语由于缺乏语法形态变化,词的应用非常灵活,词类兼类现象特别多,也特别复杂,因此需要词性标注 这里先介绍两个概念显状态直接可以被观测到的状态,例如单词隐状态通过间接观测到的状态,例如词性 OK,首先介绍隐马尔可夫模型之前我们要先来研究一下显马尔科夫模型:马尔科夫模型:马尔可夫模型描述了一类重...原创 2018-11-27 21:23:09 · 1561 阅读 · 2 评论 -
sklearn中predict_proba用法(注意和predict的区别)
predict_proba返回的是一个 n 行 k 列的数组, 第 i 行 第 j 列上的数值是模型预测 第 i 个预测样本为某个标签的概率,并且每一行的概率和为1。 # conding :utf-8from sklearn.linear_model import LogisticRegressionimport numpy as npx_train = np.array([[1...转载 2018-11-29 17:21:25 · 2221 阅读 · 0 评论 -
【python】pandas库pd.read_csv操作读取分隔符csv文件和文本text文件参数整理与实例
pandas.read_csv可以读取CSV(逗号分割)文件、文本类型的文件text、log类型到DataFrame一、pandas.read_csv常用参数整理也支持文件的部分导入和选择迭代,更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html参数:filepath_or_buffer :可以是URL,可用URL类型...转载 2018-11-29 08:34:39 · 5710 阅读 · 0 评论 -
Python——列表中存放字典遇到的问题
使用列表、字典之间的相互嵌套可以很容易的实现json数据格式,但是昨天在往列表中装入字典时遇到了问题:直接使用append方法将字典添加到列表中,如果需要更改字典中的数据,那么列表中的内容也会发生改变,这是因为dict在Python里是object,不属于primitive type(即int、float、string、None、bool)。这意味着你一般操控的是一个指向object(对象...转载 2018-11-25 03:24:17 · 3282 阅读 · 0 评论 -
真正的完全图解Seq2Seq Attention模型
五分钟看懂seq2seq attention模型。本文通过图片,详细地画出了seq2seq+attention模型的全部流程,帮助小伙伴们无痛理解机器翻译等任务的重要模型。seq2seq 是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度...转载 2018-11-15 00:12:14 · 430 阅读 · 0 评论 -
faster-rcnn原理及相应概念解释
R-CNN --> FAST-RCNN --> FASTER-RCNN R-CNN:(1)输入测试图像;(2)利用selective search 算法在图像中从上到下提取2000个左右的Region Proposal;(3)将每个Region Proposal缩放(warp)成227*227的大小并输入到CNN,将CNN的fc7层的输出作为特征;(4)将每个R...转载 2018-11-14 09:41:54 · 198 阅读 · 0 评论 -
基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN
object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。object detection要解决的问题就是物体在哪里,是什么这整个流程的问题。然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多个类别。object detection技术的演进:RCNN->S...转载 2018-11-13 19:15:36 · 210 阅读 · 0 评论 -
Python读取文件字符编码问题
在使用python命令行读取文件的时候很容易由于字符编码造成各种问题,下面是读取文件的的时候遇到的一个问题:text = open("C:/Users/Administrator/Desktop/out.txt",'r')lines = text.readlines()Traceback (most recent call last): File "<stdin>"...转载 2018-11-10 16:42:08 · 587 阅读 · 0 评论 -
自然语言菜鸟学习笔记(二)
词法分析1.语言的分类传统语言学根据词的形态结构把语言分为三大类:分析型语言 黏着性语言 曲折型语言1.1分析型语言词基本没有专门表示语法意义的附加成分形态变化少语法关系靠词序、虚词来表示如:汉语、藏语1.2黏着型语言词内有专门表示语法意义的附加成分,一 个附加成分表达一种语法意义,一种意义 也基本上由一个附加成分来表达词根或词干跟附加成分的结合...原创 2018-11-06 20:34:46 · 583 阅读 · 1 评论 -
自然语言处理菜鸟学习笔记(一)
数学基础 1.概率论基础:• 统计自然语言处理的目标是对自然语言领域的 数据进行统计推理;• 统计推理通常由两个步骤来完成:首先,提取 依照某些未知概率分布所产生的数据,然后对 这些数据分布进行某些推理.1.1样本空间通常把随机试验的每一个可能结果称为一个样 本点,样本点的全体称为样本空间 用Ω表示,例:投掷一枚硬币的实验中,只有两个输出:正面,反 面,样本空间为: Ω...原创 2018-11-06 16:08:38 · 589 阅读 · 0 评论 -
python txt文件常用读写操作
文件的打开的两种方式 f = open("data.txt","r") #设置文件对象f.close() #关闭文件#为了方便,避免忘记close掉这个文件对象,可以用下面这种方式替代with open('data.txt',"r") as f: #设置文件对象 str = f.read() #可以是随便对文件的操作一、读文件 1.简单的将...转载 2018-10-27 18:54:15 · 572 阅读 · 0 评论 -
torchvision安装报错
pip install torchvision报错: RuntimeError: PyTorch does not currently provide packages for PyPI (see status at https://github.com/pytorch/pytorch/issues/566). Please follow the instructions a...转载 2018-10-08 18:09:45 · 2788 阅读 · 0 评论 -
python查找所有子字符串出现的位置
原文:https://www.cnblogs.com/octave/p/4095929.html首先吐个槽:python字符串有find,find,index, rindex, 都是只能查找一次字符串出现的位置,可别说还有个count:出现的次数都返回了,愣是没给出出现的位置!!!在python3的文档里也没有发现有支持的function......好吧,手工写一个(查找字符串中所有的反...转载 2018-12-09 18:40:59 · 15863 阅读 · 1 评论 -
pytorch 状态字典:state_dict
pytorch 中的 state_dict 是一个简单的python的字典对象,将每一层与它的对应参数建立映射关系.(如model的每一层的weights及偏置等等)(注意,只有那些参数可以训练的layer才会被保存到模型的state_dict中,如卷积层,线性层等等)优化器对象Optimizer也有一个state_dict,它包含了优化器的状态以及被使用的超参数(如lr, momentu...转载 2019-01-24 11:24:38 · 6928 阅读 · 0 评论 -
NN中常用的距离计算公式:欧式距离、曼哈顿距离、马氏距离、余弦、汉明距离
1、欧氏距离Euclidean Distance:2、曼哈顿距离Manhattan:3、Mahalanobis马氏距离马氏距离的浅显解释,见我的博文:https://blog.csdn.net/weixin_41770169/article/details/80759195马氏距离和欧式距离的对比,见我的博文:https://blog.csdn.net/weixin_4...转载 2019-01-09 10:19:02 · 2192 阅读 · 0 评论 -
自然语言菜鸟学习笔记(七):RNN(循环神经网络)及变体(LSTM、GRU)理解与实现(TensorFlow)
目录前言RNN(循环神经网络)为什么要用循环神经网络(RNN)?循环神经网络(RNN)可以处理什么类型的任务?多对一问题一对多问题多对多问题循环神经网络结构单层网络情况正向传播反向传播存在问题优化方案多层网络情况双向网络结构LSTM(Long Short Term Memory)长短期记忆网络LSTM与RNN的不同选择性机制的...原创 2019-07-15 14:00:19 · 4379 阅读 · 2 评论 -
通过whl文件更新或安装python包
因为最近要跑一个transformer的模型,自己的tensorflow是2.0的,官方用的是1.5的,很多方法在2.0合并了,调起来有点麻烦,想着干脆吧包回退到1.5,但是pip install从在terminal里下载是在太慢了,于是开了vpn直接把whl下下来,放到文件夹里。通过终端 pip install whl包名字报了个错,看起来像是依赖包的版本不符合所以改...原创 2019-04-28 19:24:56 · 1806 阅读 · 0 评论 -
Pytorch中的torch.gather函数的含义
b = torch.Tensor([[1,2,3],[4,5,6]])print bindex_1 = torch.LongTensor([[0,1],[2,0]])index_2 = torch.LongTensor([[0,1,1],[0,0,0]])print torch.gather(b, dim=1, index=index_1)print torch.gather(b, d...转载 2019-04-18 18:13:56 · 516 阅读 · 0 评论 -
自然语言菜鸟学习笔记(六):CNN(卷积神经网络)理解与实现(TensorFlow)
目录卷积神经网络结构图为什么从神经网络到卷积神经网络?卷积解决上述问题:卷积过程卷积多通道处理池化全连接层使用TensorFlow框架简单实现CNN(手写数字识别)卷积神经网络结构图上图就是一个典型的卷积神经网络,卷积神经网络 = 卷积 + 池化 + 全连接为什么从神经网络到卷积神经网络?普通的神经网络,最经典的那种神经网络模型图也就是多个输...原创 2019-04-23 15:04:42 · 1372 阅读 · 0 评论 -
自然语言菜鸟学习笔记(五):对神经元、神经网络的简单理解
神经元:神经元是神经网络的一部分。是神经网络的最小结构,经过一定的设置后就能构成逻辑回归模型从单个神经元来看:首先先从真实的神经元的图片来看:下图就是一个最基本的神经元,一个输出,多个输入可以看到和上面的生理上的图片还蛮像的可以看到中间的圆圈有两个步骤,一个步骤是权重和x相乘, 另外一个是做一个非线性,也就是激活函数,激活函数应用到上面去后,...原创 2019-04-21 19:08:44 · 802 阅读 · 1 评论 -
maximum recursion depth exceeded怎么解决
报错提示:超过最大递归深度。解决办法:可以修改递归深度的值,让它变大大一点。原创 2019-03-07 16:25:50 · 4234 阅读 · 0 评论 -
[Pytorch]pytorch中的LSTM模型
公式表示Pytorch中LSTM的公式表示为:定义Pytorch中LSTM的定义如下:class torch.nn.LSTM(*args, **kwargs)参数列表输入数据格式:input(seq_len, batch, input_size)h0(num_layers * num_directions, batch, hidden_size)c...转载 2019-03-03 11:15:06 · 28691 阅读 · 0 评论 -
pytorch中的embedding词向量的使用
Embedding词嵌入在 pytorch 中非常简单,只需要调用 torch.nn.Embedding(m, n) 就可以了,m 表示单词的总数目,n 表示词嵌入的维度,其实词嵌入就相当于是一个大矩阵,矩阵的每一行表示一个单词。emdedding初始化默认是随机初始化的import torchfrom torch import nnfrom torch.autograd i...转载 2019-02-19 00:06:17 · 3821 阅读 · 7 评论 -
远程运行pycharm显示already running
查看运行pycharm的进程 ps u杀死进程 kill -9 ID原创 2019-02-24 11:00:11 · 1465 阅读 · 0 评论 -
机器翻译之BLEU值
1. 简介BLEU(Bilingual Evaluation Understudy),相信大家对这个评价指标的概念已经很熟悉,随便百度谷歌就有相关介绍。原论文为BLEU: a Method for Automatic Evaluation of Machine Translation,IBM出品。本文通过一个例子详细介绍BLEU是如何计算以及NLTKnltk.align.bleu_scor...转载 2019-02-17 19:04:45 · 15715 阅读 · 2 评论 -
pytorch系列: nn.Modlue及nn.Linear 源码理解
a转载 2019-01-23 13:52:59 · 6161 阅读 · 2 评论 -
正则“^[a-zA-Z]” 和 “[^a-zA-Z]”的区别
^[a-zA-Z]是去匹配目标字符串中以中括号中的a—z或者A—Z开头的字符[^a-zA-Z]是去匹配目标字符串中非a—z也非A—Z的字符原创 2019-01-23 00:46:20 · 23474 阅读 · 0 评论 -
python unicodedata用法
UCD是Unicode字符数据库(Unicode Character DataBase)的缩写。UCD由一些描述Unicode字符属性和内部关系的纯文本或html文件组成。UCD中的文本文件大都是适合于程序分析的Unicode相关数据。其中的html文件解释了数据库的组织,数据的格式和含义。UCD中最庞大的文件无疑就是描述汉字属性的文件Unihan.txt。在UCD 5.0,0中,...转载 2019-01-22 23:41:05 · 3123 阅读 · 1 评论 -
如何检查显卡支持哪个版本的CUDA ?
打开控制面板,然后在右上方的搜索框里输入NVIDIA,如下图所示:第一张是打开控制面板时的图,第二张是输入NVIDIA之后,从图中的左上角可以看到搜索出来的NVIDIA。 完成上面步骤之后,鼠标放在搜索出来的NVIDIA上,如下图红框圈出部分,然后双击。 完成上一步骤后,进入如下界面,在该界面里可以查看NVIDIA的一些信息,显卡的驱动版本,如下图的左侧...转载 2018-10-08 17:33:05 · 58418 阅读 · 15 评论 -
python的pip如何更新到最新版本
如何将pip更新到最新版本?只用使用命令如下就可以更新了。python -m pip install --upgrade pip 而Anaconda更新命令为conda install mingw libpython转载 2018-10-08 17:06:42 · 1666 阅读 · 0 评论 -
MTLD计算方法
计算方法传入一个词的list,其实MTLD就是计算词串的长度,有个要求,词串的长度小于10他的数值就会失效,还有github上边有另外一种说法就是总词数不能小于50,我们用的后面那种。传进来后,挨个词进行ttr计算,就是比如说第一个词,词数是1,唯一词数也是1,那么我们ttr就是1,然后判断1>0.72,所以继续看下一个词,如果下一个词和第一个一样,那么词数是2,唯一词是1,ttr = 0原创 2017-08-16 16:47:18 · 1790 阅读 · 0 评论 -
Python安装nltk以及里面一些包的使用
安装nltk:pip install nltk不过大伙安装完nltk之后会发现一个问题,就是有些东西不能用,就比如分词的包现在就来解决这个问题在pycharm里import nltk下面打一行nltk.download()然后运行,在下面的运行框输出那里打一个d回车然后打punkt(分词包)原创 2017-08-16 16:42:29 · 4509 阅读 · 0 评论 -
nltk词性标注英文简称及分类
标注词表:名词:NN,NNS,NNP,NNPS代词:PRP,PRP$形容词:JJ,JJR,JJS数词:CD动词:VB,VBD,VBG,VBN,VBP,VBZ副词:RB,RBR,RBS1. CC Coordinating conjunction 连接词2. CD原创 2017-08-16 16:39:00 · 5482 阅读 · 1 评论 -
Python 基于语法提取音节个数的方法(可能不完美,欢迎指教)
根据基本的一些音节的特点,逐个封装出提取音节个数的方法,代码如下:def count(slef,s): total_syllables = 0 # qu to tq s = re.sub(r'qu', 'qw', s) # replace endings s = re.sub(r'(es$)|(que$)|(gue$)', '', s)原创 2017-08-16 15:57:30 · 1745 阅读 · 0 评论 -
The MRC database dictionary之MRC_words
breakfastafternoonclothesbedroomdadgirlradiobooknewspaperwaterbigcanadabedcomestrynightsunpapernoticelargebagcarexpensivebetterawashstudentyoumothermoneyeveningdoortire原创 2017-07-07 20:44:00 · 10059 阅读 · 0 评论 -
The MRC database dictionary之MEANC库 (Mean Colorado Meaningfulness 意义性)
beautiful 617men 616sex 613people 612children 608man 607beauty 598country 595happiness 589food 588girl 587child 584mother 584woman 583pet 582book 582die 574mountain 573baby 573trans原创 2017-07-07 20:42:05 · 3805 阅读 · 0 评论 -
The MRC database dictionary之IMAG库 (imagery 象性)
beach 667jeep 659telephone 655sunshine 655skunk 652cranberry 649steak 647father 646cigarette 645banana 644sunlight 643island 643squirrel 642pony 642pickle 641tulip 641beetle 640firepl原创 2017-07-07 20:39:09 · 12780 阅读 · 0 评论 -
The MRC database dictionary之FAM库 ( familiarity 熟悉程度)
breakfast 657afternoon 655clothes 652bedroom 646dad 646girl 645radio 644book 643newspaper 641water 641big 640canada 638bed 636comes 636try 636night 636sun 635paper 635notice 634larg原创 2017-07-07 20:36:09 · 13208 阅读 · 0 评论