自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

文本相似度算法总结

文本匹配算法主要用于搜索引擎,问答系统等,是为了找到与目标文本最相关的文本。例如信息检索可以归结成查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。 一、传统模型 基于字面匹配 字面距离:字符串有字符构成,只要比较两个字符串中每一个字符是否相等...

2019-06-04 20:12:06

阅读数 770

评论数 0

ICMR 19:Temporal Activity Localization by Language

介绍一下我之前在校,独立完成的一项工作,已被ACM ICMR 2019 接收为oral paper 论文:《Cross-Modal Video Moment Retrieval with Spatial and Language-Temporal Attention》 代码:https://...

2019-06-04 19:56:46

阅读数 115

评论数 0

TextRank算法提取文本关键词

TextRank算法是由 Google 搜索的核心网页排序算法 PageRank 改编而来,利用图模型来提取文章中的关键词,首先介绍一下 PageRank 排序算法 一、PageRank 算法 PageRank通过网页之间的超链接来确定页面的重要性,它将整个互联网可以看作是一张有向图...

2019-06-04 19:38:02

阅读数 87

评论数 0

自然语言预训练模型总结(PPT版)

这是我个人的总结,参考了张俊林这篇很好的文章,请感兴趣看以下链接~ 张俊林:放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较 一、简介 自然语言处理中的预训练技术发展历程——从Word Embedding到Bert Neural lan...

2019-06-04 19:33:00

阅读数 113

评论数 0

中文分词综述

一、中文分词根据实现原理和特点,主要分为以下2个类别: 1、基于词典分词算法(字符串匹配分词算法) 按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别该词。 常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向...

2019-06-04 19:22:59

阅读数 98

评论数 0

Letcode刷题(python)

题目出自《程序员代码面试指南》 1.1 最小栈 设计一个支持 push,pop,top 操作,并能在常数时间内检索到最小元素的栈。 push(x) -- 将元素 x 推入栈中。 pop() -- 删除栈顶的元素。 top() -- 获取栈顶元素。 getMi...

2019-04-26 11:19:48

阅读数 137

评论数 9

AAAI 2018: 基于强化学习的文本分类

看这篇论文前,建议先了解一下policy gradient RL,就更很容易理解论文思想了。 论文:《Learning Structured Representation for Text Classification via Reinforcement Learning》 代码:http:...

2019-04-26 11:10:55

阅读数 168

评论数 0

【NLP】OpenAI GPT算法理解

论文《Improving Language Understanding by Generative Pre-Training》 Pytorch代码实现: huggingface/pytorch-openai-transformer-lm 一、论文原理 GPT的核心思想是先通过无标签的文本去...

2019-04-23 19:18:08

阅读数 483

评论数 0

Pytorch的模型结构可视化(tensorboard)

在pytorch中,可以导入tensorboard模块,可视化网络结构及训练流程。 下面通过“CNN训练MNIST手写数字分类”的小例子来学习一些可视化工具的用法,只需要加少量代码。 一、tensorboardX的安装 pip install tensorboard pip install...

2019-03-12 00:19:50

阅读数 553

评论数 0

计算机类学术论文写作中提高效率的小工具

作为一个学术论文写作新手,分享在论文写作过程中发现的提高效率的小工具。 1. 在线写作工具——Overleaf 在线latex写作,自动保存。在写的过程中可以随时编译,并且下载为pdf格式。 网址:https://www.overleaf.com 2. 检查语法错误以及单词拼写——Gram...

2019-03-10 23:12:38

阅读数 97

评论数 1

Flask入门

最近接触到python web中的Flask,需要学习一下基本用法,这里做一个记录。 安装Flask pip install flask 一、Hello World 接下来实现一个简单的‘Hello,World!',代码如下: from flask import Flask app ...

2019-03-10 22:41:33

阅读数 43

评论数 0

Pytorch在NLP中的简单应用

因为之前在项目中一直使用Tensorflow,最近需要处理NLP问题,对Pytorch框架还比较陌生,所以特地再学习一下pytorch在自然语言处理问题中的简单使用,这里做一个记录。 一、Pytorch基础 首先,第一步是导入pytorch的一系列包 import torch imp...

2019-03-07 12:22:43

阅读数 1266

评论数 0

CoNLL 2018:基于人类注意力的序列分类

论文《Sequence classification with human attention》 代码:https://github.com/coastalcph/Sequence_classification_with_human_attention 这篇论文提出利用视觉跟踪语料库中的人类注...

2019-03-06 19:51:32

阅读数 609

评论数 0

map()函数报错解决

1. 在python3中执行下列代码 map(lambda x: x*2, range(1,10)) 报错: <map at 0x248ea822550> 2. 原因 在python3里面,map()的返回值已经不是list,而是itera...

2019-03-06 13:36:49

阅读数 187

评论数 0

基于Pytorch的MLP模块实现

MLP分类效果一般好于线性分类器,即将特征输入MLP中再经过softmax来进行分类。 具体实现为将原先线性分类模块: self.classifier = nn.Linear(config.hidden_size, num_labels) 替换为: self.classifier = ...

2019-03-04 12:06:06

阅读数 685

评论数 0

Python实现Excel改为txt格式

将excel存储的数据改为txt格式的数据集 import xlrd fileName = "9类情感-筛选语料2.28.xlsx" fileHandler = xlrd.open_workbook(fileName) sheet_name1=u'She...

2019-03-01 23:51:24

阅读数 77

评论数 0

《Rethinking ImageNet Pre-training》理解

论文:何恺明《Rethinking ImageNet Pre-training》 在许多计算机视觉任务中,包括目标检测、图像分割、行为检测等,一般使用在ImageNet上预训练再进行微调。而在这篇论文中,作者任务在ImageNet上预训练是并不必要的,随机初始化也可以达到同样的效果,只需要: ...

2018-12-18 14:20:39

阅读数 86

评论数 0

Google BERT理解

论文:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》 一、模型介绍 BERT采用了双向Transformer Encoder来作为语言模型(《Attention is all ...

2018-12-18 14:02:54

阅读数 397

评论数 0

ELMo模型的理解与实践(2)

预训练好的词向量已经released,这里介绍一下,如何直接获取ELMo词向量。在pytorch里可以通过AlenNLP包使用ELMo。 一、环境配置 1) 在conda中创建allennlp环境: conda create -n allennlp python=3.6 2) 安装all...

2018-12-18 13:59:56

阅读数 885

评论数 1

ELMo模型的理解与实践(1)

论文:2018 NAACL 《Deep Contextualized Word Representations》 一、优点 1.学习单词的复杂特征,包括语法、语义 2.学习在不同上下文下的一词多义 二、模型 1.Bidirectional language models(BLM) 首先...

2018-12-18 13:56:43

阅读数 1693

评论数 0

提示
确定要删除当前文章?
取消 删除