Javier9201-CSDN博客

转载探索分类模型中加入词性和句法特征

最近一直在做的意见解释挖掘任务，尝试加入词性特征和句法特征来提高性能。一、方法调研了一下大概可以有3种方法在分类模型中加入句法特征：1. 直接使用stanford nlp工具得到每个词的父亲结点信息作为该词的句法特征加入分类模型。2. 用treelstm训练树型结构模型，得到树中每个结点的信息，获取每个词在树中的位置信息作为句法特征。这种方法与方法1相比，不仅包含了父亲结...

2018-06-06 10:36:00 665

转载加入词性特征的词向量

最近在做的分词词性标注联合训练，在深度学习模型中，通常词向量带给模型性能的影响是很大的，所以我们希望在训练词向量的过程中加入词性特征，来进一步提升模型性能。那怎么训练带有词性特征的词向量呢，接下来我将把训练过程记录下来分享给大家。转载于:https://www.cnblogs.com/Joyce-song94/p/9132762.html...

2018-06-04 12:45:00 1175

转载关于处理数据不平衡问题的一些探索

一、背景：最近在做意见解释分类任务，数据集中出现了严重的类别不均衡的问题，类别1的数目大概只有类别2的七分之一，类别2的数目大概占全部数据集的一大半了。在这种情况下，模型训练容易忽视小类而偏向大类，而小类别信息对我们来说也是非常重要的，我们也希望能提取更多的小类的特征，提高小类别的准确率。所以如何处理数据类别的不平衡问题，提高模型的宏平均值，也是我们需要重点关注的问题。二、...

2018-06-03 08:50:00 369

转载 python正则表达式-re模块

目录：一、正则函数二、re模块调用三、贪婪模式四、分组五、正则表达式修饰符六、正则表达式模式七、常见的正则表达式导读：　　想要使用python的正则表达式功能就需要调用re模块，re模块为高级字符串处理提供了正则表达式工具。模块中提供了不少有用的函数，比如：compile函数、match函数、search函数、findall函数、finditer...

2018-05-03 18:39:00 290

转载分类和抽取的联合模型

最近在做意见解释挖掘项目中解释性意见分类任务，尝试将解释性意见分类和意见解释抽取任务联合训练，在这里对最近的工作做一下整理。因为是实验室的自然科学基金项目中的子任务，项目数据暂时还未公开，在这里就不展开介绍具体任务了。一、思路解释性意见句的类别是依据意见句中的意见解释的内容进行定义的，那么在对句子进行分类之前，如果模型获取到了意见句中的意见解释信息，是否有助于模型进行分类呢...

2018-02-28 16:01:00 338

转载实验心得

1. 减少除法，乘法，影响精度（BiaffineDParser在解决set batch size问题时也注意到了这个问题）所以计算f值时，推荐使用下面的公式，这样也可以一眼看出F值大小，如果在c、g相同的情况下，即对于同一个句子，p越大f值越小。2. 路径问题，如何跨目录读取文件转载于:https://www.cnblogs.com/Joyce-song94/p...

2018-01-10 08:56:00 199

转载 Django学习笔记2：处理表单

1.HTTP请求HTTP协议以"请求－回复"的方式工作。客户发送请求时，可以在请求中附加数据。服务器通过解析请求，就可以获得客户传来的数据，并根据URL来提供特定的服务。（1）GET方法在项目中HelloWorld/HelloWorld下创建一个 search.py 文件，用于接收用户的请求 1 from django.http import HttpRespon...

2017-12-27 23:30:00 173

转载初学Django：创建第一个项目+使用模板

1. 创建一个项目之前在Anaconda 3里面用命令行安装了Django之后，有了可用的管理工具django-admin.py（1）用django.admin.py来创建一个项目Helloworld（2）查看项目的目录结构因为是windows环境，所以只展示了一层。（3）在目录下输入命令启动服务器启动正常（4）视图和URL配置在先...

2017-12-26 23:30:00 199

转载 Matplotlib画图

1. Matplotlib输出中文显示问题解决方法：加上两行代码就行from pylab import mpl mpl.rcParams[‘font.sans-serif] = [‘SimHei’]转载于:https://www.cnblogs.com/Joyce-song94/p/8094754.html...

2017-12-23 23:00:00 149

转载从感知机到支持向量机—学习笔记

step 1用高斯分布生成两类点 1 class Point3: 2 def __init__(self): 3 self.x = random.gauss(50, 10) 4 self.y = random.gauss(50, 10) 5 6 self.label = -1 7 ...

2017-09-26 07:54:00 181

转载 gradients的一些注意点

Each variable has a [.grad_fn] attribute that references a Function that has created the Variable(except for Variables created by the user their grad_fn is None).out.backward()=out.backward(tor...

2017-09-05 19:26:00 336

转载模型搭建练习2_实现nn模块、optim、two_layer、dynamic_net

用variable实现nn.module 1 import torch 2 from torch.autograd import Variable 3 4 N, D_in, H, D_out = 64, 1000, 100, 10 5 6 x = Variable(torch.randn(N, D_in)) 7 y = Variable(torch.r...

2017-09-05 10:40:00 221

转载学习记录

在学习浏览网页test过程中遇到的一些需要研究一下才能看懂的函数，在这里做一下记录，供以后翻看学习1. maximum() 1 import numpy as np 2 N, D_in, H, D_out = 64, 1000, 100, 10 3 x = np.random.randn(N, D_in) # (64, 1000) 4 y = np.rand...

2017-09-04 20:40:00 172

转载模型搭建练习1_用numpy和tensor、variable实现前后向传播、实现激活函数

用numpy实现搭建一个简单的forward和backward 1 import numpy as np 2 N, D_in, H, D_out = 64, 1000, 100, 10 3 x = np.random.randn(N, D_in) # (64, 1000) 4 y = np.random.randn(N, D_out) # (64, ...

2017-09-04 17:20:00 161

转载前沿技术讲习班学习笔记2-车老师

Outline:(1) Graph-based Methods(2) Transition-based Methods(3) Neural Graph-based Methods(4) Neural Transition-based Methods(5) ApplicationsPoints:1. Fundamental NLP Pipeline: ra...

2017-08-29 21:45:00 309

转载机器学习优化问题-经验风险、期望风险、结构风险

要区分这三个概念，需要先讲一下损失函数L(Y,f(x))的概念。损失函数：针对单个具体样本，表示模型预测值与真实样本值之间的差距。损失函数越小，说明模型对于该样本预测越准确。常见损失函数有0-1损失函数、平方损失函数、绝对损失函数、对数损失函数（对数似然损失函数）。经验风险：对所有训练样本都求一次损失函数，再累加求平均。即，模型f(x)对训练样本中所有样本的预测能力。...

2017-08-28 15:04:00 711

转载前沿技术讲习班学习笔记1-邱锡鹏老师

大纲：（1）概述：机器学习概述、感知器、应用（2）基础模型：前馈神经网络、卷积神经网络、循环神经网络、网络正则化与优化、应用（3）进阶模型：注意力机制与外部记忆、无监督学习、概率图模型、深度生成模型、深度强化学习、模型独立的学习方式整理的知识点：1. 机器学习历史：1950~1965（规则+知识）、1970~1985（专家系统）、1985~2005（统计浅层学习...

2017-08-28 09:24:00 300

转载调参tips

对于一个模型，都可以从以下几个方面进行调参：1. 对weight和bias进行初始化（效果很好，一般都可以提升1-2%）Point 1 (CNN):1 for conv in self.convs1:2 init.xavier_normal(conv.weight, gain=np.sqrt(2.0))　　# 对weight进行正态分布初始化3 # ...

2017-08-11 20:04:00 236

转载 weight initilzation

1. pytorch提供接口method 1 torch.nn.init里面有很多初始化分布1 import torch.nn.init as init2 3 self.conv1 = nn.Conv2d(3, 20, 5, stride=1, bias=True)4 init.xavier_uniform(self.conv1.weight, gain=np....

2017-08-09 15:08:00 153

转载 PyTorch 实现kmax-pooling

max-pooling有很多种实现方式（1）kmax-pooling1 import torch2 def kmax_pooling(x, dim, k):3 index = x.topk(k, dim=dim)[1].sort(dim=dim)[0]4 return x.gather(dim, index)5 x = torch.rand(4...

2017-08-03 09:13:00 1595

转载第四期coding_group笔记_用CRF实现分词-词性标注

一、背景知识1.1 什么是分词？　　NLP的基础任务分为三个部分，词法分析、句法分析和语义分析，其中词法分析中有一种方法叫Tokenization，对汉字以字为单位进行处理叫做分词。　　Example : 我去北京　　　　　　　S S B E　　注：S代表一个单独词，B代表一个词的开始，E表示一个词的结束（北京是一个词...

2017-07-31 11:23:00 461

转载调参记录

1. CNN双通道 + dropout=0.5 + 100dim79.5%2. CNN双通道 + dropout=0.7 + 300dim80.34%3. BiLSTM + 200hidden + 100dim + dropout=0.479.6%4. embedding(300,modify) + dropout=0.5 + Bi-LSTM(dropout=0....

2017-07-28 23:41:00 166

转载 PyTorch学习问题记录

Q1：def train() 中的model.train()的作用是什么？为什么要写？A1：class torch.nn.Module中 train(mode=True)　　Sets the module in training mode. This has any effect only on modules such as Dropout or BatchNorm.　　参...

2017-07-28 19:14:00 159

转载 Deep learning with PyTorch: A 60 minute blitz _note(1) Tensors

Tensors1. construst matrix2. addition3. slice 1 from __future__ import print_function 2 import torch 3 4 # construst a 5*3 matrix. 5 # method 1 6 # x = torch.LongTensor(5, 3)...

2017-07-28 09:45:00 170

转载 PyTorch学习笔记之Variable_and_function_cat

application 1 1 from torch.autograd import Variable 2 import torch 3 b = Variable(torch.FloatTensor([64, 100, 43])) 4 print(b) 5 ''' 6 Variable containing: 7 64 8 100 9 4...

2017-07-23 15:50:00 146

转载 PyTorch学习笔记之DataLoaders

A DataLoader wraps a Dataset and provides minibatching, shuffling, multithreading, for you。 1 import torch 2 from torch.autograd import Variable 3 import torch.nn as nn 4 from torch.uti...

2017-07-21 23:56:00 196

转载 PyTorch学习笔记之nn的简单实例

method 1 1 import torch 2 from torch.autograd import Variable 3 4 N, D_in, H, D_out = 64, 1000, 100, 10 5 x = Variable(torch.randn(N, D_in)) 6 y = Variable(torch.randn(N, D_out), r...

2017-07-21 23:37:00 272

转载 PyTorch学习笔记之Tensors 2

Tensors的一些应用 1 ''' 2 Tensors和numpy中的ndarrays较为相似, 因此Tensor也能够使用GPU来加速运算 3 ''' 4 # from _future_ import print_function 5 import torch 6 x = torch.Tensor(5, 3) # 构造一个未初始化的5*3的矩...

2017-07-21 20:46:00 126

转载 PyTorch学习笔记之Tensors

PyTorch Tensors are just like numpy arrays, but they can run on GPU.No built-in notion of computational graph, or gradients, or deep learning.Here we fit a two-layer net using PyTorch Tensors:...

2017-07-21 17:20:00 210

转载 PyTorch学习笔记之计算图

1. **args, **kwargs的区别 1 def build_vocab(self, *args, **kwargs): 2 counter = Counter() 3 sources = [] 4 for arg in args: 5 if isinstance(arg, D...

2017-07-21 16:17:00 235

转载 PyTorch学习笔记之CBOW模型实践

1 import torch 2 from torch import nn, optim 3 from torch.autograd import Variable 4 import torch.nn.functional as F 5 6 CONTEXT_SIZE = 2 # 2 words to the left, 2 to the right 7 ...

2017-07-13 10:21:00 335

转载 PyTorch学习笔记之n-gram模型实现

1 import torch 2 import torch.nn as nn 3 from torch.autograd import Variable 4 import torch.nn.functional as F 5 import torch.optim as optim 6 7 CONTEXT_SIZE = 2 # the ...

2017-07-13 09:53:00 710

转载 PyTorch学习笔记之初识word_embedding

1 import torch 2 import torch.nn as nn 3 from torch.autograd import Variable 4 5 word2id = {'hello': 0, 'world': 1} 6 # you have 2 words, and then need 5 dim each word 7 embeds = ...

2017-07-13 08:43:00 238

转载 7月3日-9日_周报

一、情感分类方面为了提高CNN情感分类的准确率，对CNN模型的输入层进行改进，加入word2vec。各个方案基于这样的前提：a. 经过上个星期调试，当KERNEL_NUM=200, KERNEL_SIZES=[3, 4, 5, 6, 7] 时准确率最高，所以下面所有改进都是基于此结论的基础上的，达到的最高准确率。b. 所用数据是老师提供的统一数据，2分类，训练、开发、测试...

2017-07-11 22:43:00 144

转载 python学习笔记之heapq内置模块

heapq内置模块位于./Anaconda3/Lib/heapq.py，提供基于堆的优先排序算法堆的逻辑结构就是完全二叉树，并且二叉树中父节点的值小于等于该节点的所有子节点的值。这种实现可以使用 heap[k] <= heap[2k+1] 并且 heap[k] <= heap[2k+2] （其中 k 为索引，从 0 开始计数）的形式体现，对于堆来说，最小元素即为根元素 h...

2017-07-11 10:48:00 273

转载 python学习笔记1-numpy/enumerate

1. np.size和np.prod1 import numpy as np2 x = np.zeros((3, 5, 2), dtype=np.complex128)3 # ndarray.size is the number of elements in the array4 # equivalent to np.prod(a.shape)5 print(x...

2017-07-09 17:15:00 205

转载 PyTorch框架+Python 3面向对象编程学习笔记

一、CNN情感分类中的面向对象部分sparse.py1 super(Embedding, self).__init__()表示需要父类初始化，即要运行父类的_init_()，如果没有这个，则要自定义初始化1 self.weight = Parameter(torch.Tensor(num_embeddings, embedding_dim))Para...

2017-07-05 02:22:00 313

转载关键字抽取论文阅读笔记

刘知远老师博士论文-基于文档主题结构的关键词抽取方法研究一、研究背景和论文工作介绍　　关键词抽取分为两步：选取候选关键词和从候选集合中推荐关键词。1.1. 选取候选关键词关键词：单个词或者多个单词组成的短语。抽取难点：如何正确判定候选关键词的边界。（在英文关键词抽取中，一般选N元词串，计算N元词串内部联系的紧密程度来判断是否是一个有独立语义的短语。类比搭配抽取、多词表...

2017-07-05 01:06:00 349

转载 python 正则表达式学习笔记

re 模块使 Python 语言拥有全部的正则表达式功能。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re.match(pattern, string, flags=0) # 匹配成功返回一个匹配的对象，否则返回none1 import re2 print(re.match('ww...

2017-07-03 15:18:00 142

转载 6月末的总结

一、情感分类方面：1. 实践：关于CNN的理论知识，查看了几篇博客和论文，写了几个随笔笔记。感想：对于网上的博文要带着批判的态度对待，不可尽信，要实践。对知识的了解要透彻，最好能实践。2. 实践：关于PyTorch的实践，github关注了几个项目，主要是阅读，自己练习了一部分，比如python装了gensim库，练习了简单的word2vec的例子。感想...

2017-07-03 14:56:00 146

空空如也

空空如也