黄鑫huangxin
码龄9年
关注
提问 私信
  • 博客:382,768
    382,768
    总访问量
  • 84
    原创
  • 1,126,702
    排名
  • 162
    粉丝
  • 0
    铁粉

个人简介:深度学习,多媒体分析与理解 知乎专栏:https://www.zhihu.com/people/mu-xi-jin-39/columns Github: https://github.com/BonnieHuangxin

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2015-12-14
博客简介:

黄鑫的博客

查看详细资料
个人成就
  • 获得157次点赞
  • 内容获得92次评论
  • 获得779次收藏
  • 代码片获得466次分享
创作历程
  • 17篇
    2019年
  • 73篇
    2018年
成就勋章
TA的专栏
  • 随笔
    1篇
  • 多媒体检索
  • 论文阅读
    26篇
  • CCF认证
    8篇
  • Pytorch学习
    8篇
  • 深度学习
    27篇
  • python学习
    20篇
  • Tensorflow学习
    16篇
  • 视频处理
    2篇
  • caffe
    1篇
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数据处理工具简单了解

一、Redis字典结构的数据存储服务器Redis是一个字典结构的存储服务器,而实际上一个Redis实例提供了多个用来存储数据的字典,客户端可以指定将数据存储在哪个字典中。二、kafka消息队列发布-订阅消息传递模式在发布-订阅消息系统中,消息被持久化到一个topic中。消费者可以订阅一个或多个topic,消费者可以消费该topic中所有的数据,同一条数据可以被多个消费者消费,数据被...
原创
发布博客 2019.10.29 ·
552 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

文本相似度算法总结

文本匹配算法主要用于搜索引擎,问答系统等,是为了找到与目标文本最相关的文本。例如信息检索可以归结成查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。一、传统模型基于字面匹配字面距离:字符串有字符构成,只要比较两个字符串中每一个字符是否相等便知道两个字符串是否相等,或者更简单一点将每一个字符串通过哈希函数映射为一个哈希值,然后进行比较。...
原创
发布博客 2019.06.04 ·
28697 阅读 ·
17 点赞 ·
1 评论 ·
114 收藏

ICMR 19:Temporal Activity Localization by Language

介绍一下我之前在校,独立完成的一项工作,已被ACM ICMR 2019 接收为oral paper论文:《Cross-Modal Video Moment Retrieval with Spatial and Language-Temporal Attention》代码:https://github.com/BonnieHuangxin/SLTA一、论文任务Examples:...
原创
发布博客 2019.06.04 ·
1710 阅读 ·
1 点赞 ·
3 评论 ·
3 收藏

TextRank算法提取文本关键词

TextRank算法是由 Google 搜索的核心网页排序算法 PageRank 改编而来,利用图模型来提取文章中的关键词,首先介绍一下 PageRank 排序算法一、PageRank 算法PageRank通过网页之间的超链接来确定页面的重要性,它将整个互联网可以看作是一张有向图,网页是图中的节点,网页之间的链接就是图中的边。根据重要性传递的思想,如果一个大型网站A含有一个超...
原创
发布博客 2019.06.04 ·
7903 阅读 ·
5 点赞 ·
0 评论 ·
34 收藏

自然语言预训练模型总结(PPT版)

这是我个人的总结,参考了张俊林这篇很好的文章,请感兴趣看以下链接~张俊林:放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较一、简介自然语言处理中的预训练技术发展历程——从Word Embedding到Bert Neural language models Word Embedding Pretrained l...
原创
发布博客 2019.06.04 ·
2118 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏

中文分词综述

一、中文分词根据实现原理和特点,主要分为以下2个类别:1、基于词典分词算法(字符串匹配分词算法) 按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别该词。 常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。 2、基于统计的分词方法 基于统计的分词方法是在给定大量已经分...
原创
发布博客 2019.06.04 ·
2232 阅读 ·
0 点赞 ·
0 评论 ·
18 收藏

Letcode刷题(python)

题目出自《程序员代码面试指南》1.1 最小栈设计一个支持 push,pop,top 操作,并能在常数时间内检索到最小元素的栈。 push(x) -- 将元素 x 推入栈中。 pop() -- 删除栈顶的元素。 top() -- 获取栈顶元素。 getMin() -- 检索栈中的最小元素。 python内的list来实现栈class MinS...
原创
发布博客 2019.04.26 ·
850 阅读 ·
1 点赞 ·
3 评论 ·
0 收藏

AAAI 2018: 基于强化学习的文本分类

看这篇论文前,建议先了解一下policy gradient RL,就更很容易理解论文思想了。论文:《Learning Structured Representation for Text Classification via Reinforcement Learning》代码:http://coai.cs.tsinghua.edu.cn/publications/一、论文原理这...
原创
发布博客 2019.04.26 ·
2121 阅读 ·
1 点赞 ·
5 评论 ·
13 收藏

【NLP】OpenAI GPT算法理解

论文《Improving Language Understanding by Generative Pre-Training》Pytorch代码实现:huggingface/pytorch-openai-transformer-lm一、论文原理GPT的核心思想是先通过无标签的文本去训练生成语言模型,再根据具体的NLP任务(如文本蕴涵、QA、文本分类等),来通过有标签的数据对模型进行...
原创
发布博客 2019.04.23 ·
6266 阅读 ·
2 点赞 ·
1 评论 ·
12 收藏

Pytorch的模型结构可视化(tensorboard)

在pytorch中,可以导入tensorboard模块,可视化网络结构及训练流程。下面通过“CNN训练MNIST手写数字分类”的小例子来学习一些可视化工具的用法,只需要加少量代码。一、tensorboardX的安装pip install tensorboardpip install tensorflowpip install tensorboardX二、导入tensorboa...
原创
发布博客 2019.03.12 ·
11791 阅读 ·
7 点赞 ·
1 评论 ·
32 收藏

计算机类学术论文写作中提高效率的小工具

作为一个学术论文写作新手,分享在论文写作过程中发现的提高效率的小工具。1. 在线写作工具——Overleaf在线latex写作,自动保存。在写的过程中可以随时编译,并且下载为pdf格式。网址:https://www.overleaf.com2. 检查语法错误以及单词拼写——Grammarly粘贴论文中的句子,检测句子是否有语法错误或者单词拼写错误。总的来说,可以标注出简单的小错...
原创
发布博客 2019.03.10 ·
1130 阅读 ·
4 点赞 ·
1 评论 ·
19 收藏

Flask入门

最近接触到python web中的Flask,需要学习一下基本用法,这里做一个记录。安装Flaskpip install flask一、Hello World接下来实现一个简单的‘Hello,World!',代码如下:from flask import Flaskapp = Flask(__name__) @app.route('/')def index(): ...
原创
发布博客 2019.03.10 ·
216 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Pytorch在NLP中的简单应用

因为之前在项目中一直使用Tensorflow,最近需要处理NLP问题,对Pytorch框架还比较陌生,所以特地再学习一下pytorch在自然语言处理问题中的简单使用,这里做一个记录。一、Pytorch基础首先,第一步是导入pytorch的一系列包import torchimport torch.autograd as autograd #Autograd为Tensor...
原创
发布博客 2019.03.07 ·
2278 阅读 ·
2 点赞 ·
0 评论 ·
10 收藏

CoNLL 2018:基于人类注意力的序列分类

论文《Sequence classification with human attention》代码:https://github.com/coastalcph/Sequence_classification_with_human_attention这篇论文提出利用视觉跟踪语料库中的人类注意力,作为训练注意力模型时的一个归纳偏置(Inductive bias),也就是用human atte...
原创
发布博客 2019.03.06 ·
1249 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

map()函数报错解决

1. 在python3中执行下列代码map(lambda x: x*2, range(1,10))报错:<map at 0x248ea822550>2. 原因在python3里面,map()的返回值已经不是list,而是iterators, 所以想要使用map()函数,需要将iterator 转换成list 即可,即list(map())list(map(...
原创
发布博客 2019.03.06 ·
3727 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

基于Pytorch的MLP模块实现

MLP分类效果一般好于线性分类器,即将特征输入MLP中再经过softmax来进行分类。具体实现为将原先线性分类模块:self.classifier = nn.Linear(config.hidden_size, num_labels)替换为:self.classifier = MLP(config.hidden_size, num_labels)并且添加MLP模块: ...
原创
发布博客 2019.03.04 ·
14078 阅读 ·
5 点赞 ·
3 评论 ·
29 收藏

Python实现Excel改为txt格式

将excel存储的数据改为txt格式的数据集import xlrdfileName = "9类情感-筛选语料2.28.xlsx"fileHandler = xlrd.open_workbook(fileName) sheet_name1=u'Sheet1'page = fileHandler.sheet_by_name(sheet_name1) col1 = page.co...
原创
发布博客 2019.03.01 ·
934 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

《Rethinking ImageNet Pre-training》理解

论文:何恺明《Rethinking ImageNet Pre-training》在许多计算机视觉任务中,包括目标检测、图像分割、行为检测等,一般使用在ImageNet上预训练再进行微调。而在这篇论文中,作者任务在ImageNet上预训练是并不必要的,随机初始化也可以达到同样的效果,只需要:1)使用合适的正则化优化方法2)足够长的训练时间,即多次迭代训练论文中的走势图,我们可以观察到...
原创
发布博客 2018.12.18 ·
368 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Google BERT理解

论文:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》一、模型介绍BERT采用了双向Transformer Encoder来作为语言模型(《Attention is all you need》论文中的transformer结构),采用了两种预训练方法:1)Masked L...
原创
发布博客 2018.12.18 ·
1266 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

ELMo模型的理解与实践(2)

预训练好的词向量已经released,这里介绍一下,如何直接获取ELMo词向量。在pytorch里可以通过AlenNLP包使用ELMo。一、环境配置1) 在conda中创建allennlp环境:conda create -n allennlp python=3.62) 安装allennlppip install allennlp二、下载训练好的参数和模型参数下载:...
原创
发布博客 2018.12.18 ·
2054 阅读 ·
1 点赞 ·
3 评论 ·
5 收藏
加载更多