- 博客(38)
- 资源 (6)
- 收藏
- 关注
原创 SParC: Cross-Domain Semantic Parsing in Context 论文解读
前言:SParC是一个基于 Spider 数据集扩展的有上下文依赖的对话是 Text-to-SQL 数据集。不同于 Spider 一句话 对应一个最终 SQL,SParC 通常需要通过多轮对话来实现用户的查询意图,并且在交互过程中,用户会省略很多之前提到的信息,或者新增、修改之前提到过一些内容,使得该任务更具挑战性。基本信息 标题:SParC: Cross-Domain Semantic Parsing in Context 作者:Tao Yu等 单位:耶鲁大学...
2021-05-23 09:47:08 517
原创 codalab环境搭建及新手教程
codalab环境搭建及新手教程文章目录codalab环境搭建及新手教程codalab简介本地环境配置命令用法样例实战注意事项进阶教程参考链接总结更新时间:2021年5月13日前言:由于科研需要codalab平台,便开始学习如何使用它,中文相关介绍非常之少,于是便把官方英文文档统统刷了 一遍,踩了很多坑,终于可以熟练使用它了。把我的采坑经历记录下来,填补这片空白,希望能帮大家节省宝贵的时间,可以更快地上手。codalab简介CodaLab工作表是一个开源平台,它提供了一个生态系统,可以以更高效
2021-05-15 16:45:23 9736 4
原创 Structure-Grounded Pretraining for Text-to-SQL 论文解读
STRUG:Structure-Grounded Pretraining for Text-to-SQL该论文已被 NAACL 2021 所接收。pdf:https://arxiv.org/abs/2010.12773总结:本文通过使用现有的数据集 ToTTo 来构造预训练任务,包含3个训练目标,分别是 column grouding(预测列名是否在utterance中被提到,包括直接提到和提到相关的value)、value grounding(预测一个utterance的token是否是value)
2021-05-02 23:09:57 390
原创 GAP:Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training
Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training论文解读pdf:https://arxiv.org/abs/2012.10309该论文已被 AAAI 2021 所接收。生成式增强预训练。GAP (Generation-Augmented Pre-Training)摘要现有的通用语言模型在Text-to-sql任务上存在3个问题: 1、..
2021-04-29 22:53:01 438
原创 Fat-tree:A Scalable, Commodity Data Center Network Architecture 解读
Fat-tree:A Scalable, Commodity Data Center Network Architecture 解读title: 一种可扩展的、商品化的数据中心网络体系结构第一部分:背景传统的数据中心网络架构传统的数据中心网络架构分为三层(从下往上):第一层,接入层(Access Layer)。也称 Edge Layer,直接连接服务器的交换机。第二层,汇聚层(Aggregation Layer)。汇聚交换机连接Access交换机,同时...
2020-11-23 18:56:39 7074 2
原创 让人抓狂的换行符LF和CRLF
让人抓狂的换行符LF和CRLF前言使用过git的小伙伴都知道,提交版本前会使用git diff来对比一下当前的修改,确认无误后再commit。然而,有时候会碰上这种情况(Pycharm里的文件对比):红框里的意思:内容上仅仅是换行符的差异。左边是上一版本,右边是当前版本(工作区的版本)。左边的换行符是 LF,右边换行符是 CRLF。下面依次几个问题:LF和CRLF是什么?为什么代码里会出现这种diff?如何处理这种换行符差异?问题一:LF和CRLF是什么?LF:"\n",L
2020-08-12 12:19:15 15844 3
原创 RoBERTa:一种鲁棒地优化BERT预训练的方法
RoBERTa:一种鲁棒地优化BERT预训练的方法文章目录RoBERTa:一种鲁棒地优化BERT预训练的方法前言背景实验静态 VS 动态 Masking输入形式与NSP任务更大的batch_size更大的BPE词汇表总结使用最后前言本文提出了一种对BERT预训练进行精细调参和调整训练集的方法,用这种方法对BERT进行预训练还能提升性能。自训练的方法,诸如 ELMo、GPT、BERT、XLM、XLNet 均带来了很大的性能提升,但很难搞懂究竟是方法的哪些方面对模型性能的提升贡献最大。我们复现了BER
2020-07-21 11:51:16 1871 1
原创 torch-sparse gcc编译失败分析
torch-sparse安装失败分析环境Linux: Ubuntu 16.04cuda: 9.0cudnn: 7.3.0pytorch: 1.1.0python: 3.6torch-geometric: 1.4.3torch-sparse报错的版本:0.6.0报错内容/tmp/pip-install-vjwvkdbw/torch-sparse/csrc/spspmm.cpp...
2020-04-12 15:34:15 9156 12
原创 知识驱动的主动式开放域对话系统 by 车万翔 2020/4/11
目录会议介绍会议海报相关内容截图收获会议介绍本次NLP技术前沿进展报告大会由CCF举办,在腾讯会议上线上进行。我下面分享的是车万翔老师的报告内容,主要介绍了在知识驱动的主动内容规划三个方面的工作:如何在闲聊中规划多轮对话内容? KnowHRL:基于话题的多轮对话内容规划;话题来自知识图谱,作为可解释的离散状态 如何解决KnowHRL依赖人工标注语料难以...
2020-04-12 09:08:30 976 2
原创 ParlAI 学习记录(一):安装及demo上手
目录ParlAI 学习记录(一)1、parl.ai简介2、快速上手2.1 安装2.2 跑跑demo熟悉一下ParlAI 学习记录(一)1、parl.ai简介网站地址: https://parl.ai/一个统一的分享、训练和评估对话模型的平台,支持各种对话任务。特色:包含所有主流的对话数据集,从开放域闲聊到可视化问答应有尽有;一系列现成的模型供你参考使用,从抽取式基线模型到Trans...
2020-04-11 18:27:19 4206
转载 最新github访问、下载慢解决办法
在这之前,我百度和知乎搜了一下这个问题,很多方案过期了,并没有什么卵用。于是,我在百度搜索结果的基础上,限定时间为一个月内,终于找到一篇有效的方案。--------------------------------------------------------------------------------------------------------------访问慢的原因:国内D...
2020-03-14 15:37:00 1212
原创 Transformer实战
引言:Transformer自从2017年提出到现在,已经被广泛应用于NLP各项任务中,尤其是NMT,取得的效果最明显。前面讲了Transformer模型,下面就来介绍一下Transformer实战。已经有很多大神写了Transformer的各种实现,本文参考的是哈佛大学2018年4月的一个实现版本。与以往纯翻译的博客不同,本文侧重整体结构+细节分析,并附上了很多模型局部图以及类的依赖关系图,解...
2019-07-26 14:35:41 8844 10
原创 NMT实战理解Attention、Seq2Seq
最近在看NMT相关的研究,论文很多,每隔几个月就会有新的论文发出来,提出新的模型或者改进,作为小白,我觉得还是先搞懂一些基础理念,试着去实现最简单的模型,练练手。本次以Pytorch的Translation with sequence to sequence network and attention为例,介绍一下Seq2Seq和Attention机制,顺便了解一下最简单的NMT模型。好了话不多...
2019-07-02 17:43:07 2124
原创 NLP数据预处理神器nltk
神器nltk安装很简单:pip install nltk第一次使用nltk的话,会报错,还需要下载一些资源包,按照提示下载即可:import nltknltk.download('punkt')可以简单测试一下:import nltktext = 'This is a test. I want to learn nltk.'sens = nltk.sent_tokenize(...
2019-07-01 09:54:11 933
原创 面试常考知识点:快速排序
快速排序中心思想:分治法核心问题1、基准元素的选择方案一:以数组的第一个元素为基准元素极端情况:原数组有序,所选的元素刚好是最大/小值,导致每次分治后,数据严重倾斜,效率低下,时间复杂度最差(n^2)方案二:随机选一个作为基准元素也有极小几率选到数列的最大/小值2、元素的移动(1)、挖坑法代码如下:import java.util.Arrays;public class ...
2019-06-21 11:18:23 191
原创 OpenNMT运行环境搭建
OpenNMT运行环境搭建前言:深度学习入门第一步就是搭建运行环境,安装各种框架,设置各种环境变量,其实熟练之后也就那么回事。下面我以OpenNMT为例,介绍搭建服务器运行环境的整个过程,供大家参考。1、当前配置服务器:ubuntu 18.04 LTScuda: 9.0cudnn: 7.3.0conda: 4.5.11查看这些版本的命令,请自行百度吧,这里就不赘述...
2019-05-29 21:31:39 4337 7
原创 SFFAI19-优秀博士经验分享几点感悟
1、入门科研要趁早,一来出成果快解决毕业问题,二来可以留出更多的时间思考探索未来的规划;2、能手把手带你的老师或师兄,可遇不可求,关键还是培养自学能力、独立思考的能力,当然关键问题上与人合作探讨很重要;3、如何发现问题?多看文章、多调代码、多接触工业界,这样能发现实际问题、真正有价值的问题。性能指标是冷冰冰的,多可视化指标背后的东西:如错误类型、错误分布等;4、做实验关键是控制变量,耗...
2019-03-24 10:39:22 384
原创 NLP分析技术概览
NLP: Natural Language Processing 即自然语言处理本人也是NLP入门小白一枚,今日看到此思维导图后,对这一领域的大体任务和技术有了宏观的印象。分享给大家看看,就算你不是研究NLP的也可以了解了解,万一哪天别人说起这些名词,你也能侃上几句呢。简介NLP(自然语言处理)是什么呢?1、语言是生物用来沟通的工具,有语音、表情、肢体语言等,文字只是一种显像的符号而...
2019-03-21 21:56:49 1760
原创 深度学习500问!面试有这些足够了!
近日,Github上一个名为DeepLearning-500-questions火了,star量将近2万,fork数也5000多了。作者是川大的一名优秀毕业生谈继勇。这个项目搜罗了概率知识、线性代数、机器学习、深度学习面试常见的500个热点问题,可谓是备考面试之良品。话不多说,先睹为快!先看一下章节划分吧:数学基础机器学习基础深度学习基础经典网络卷积神经网络(CNN)循环神...
2019-03-21 08:43:02 2319
原创 课程笔记1 : (2019)斯坦福CS224n深度学习自然语言处理课程 by Chris Manning
来源:机器之心文章2019 年,自然语言处理公开课开始学了~简介你知道入门自然语言处理(NLP)的「标配」公开课 CS224n 么,它和计算机视觉方面的课程 CS231n 堪称绝配,它们都是斯坦福的公开课。但是自 2017 年以来,NLP 有了很多重大的变化,包括 Transformer 和预训练语言模型等。以前开放的是 17 年年初的课程,很多激动人心的前沿模型都没有介绍,而最近 C...
2019-03-14 15:38:04 1193
原创 实验设计和结果分析经验总结
听了一位实战派博士的关于实验设计和结果分析的分享,记录一下。属于方法论,具体还得自己去悟,去实践操作才能真正体会精髓。一、分析现有方法的结果及缺点1.1 为什么要分析现有方法?可以找到最需要解决的问题,发现新方向找到真正的问题,而不是空想的问题用统计数据来佐证问题的严重性创新性更强1.2 如何分析?人工分析、自动分析、Case study等等关注最为严重和实际的问题(抓主要...
2019-03-12 11:35:54 7386
原创 SFFAI20-师姐交流会
1、介绍SFFAI 是 Student Forum on Frontiers of Artificial Intelligence 的简称,人工智能前言学生论坛。这次师姐交流会是第20场,我很有幸聆听到了师姐们关于博士生活的个人成长以及科研经历分享,收益匪浅,尤其是对待科研的心态上。科研之路充满挑战,是一场对思维方式的革命,需要智慧和耐心。2、干货王少楠师姐...
2019-03-10 20:15:45 791 2
原创 jupyter notebook 添加 conda 环境
前言我们经常会有这样的需求:在Linux服务器上激活了conda环境,然后用命令 jupyter notebook --no-browser --ip=0.0.0.0 开启了notebook。然后在本地浏览器打开了notebook界面,跑代码发现缺少各种包。其实就是python环境不对。notebook默认使用的是Linux自带的python,而不是我们激活的conda环境。下面给出解决...
2019-03-10 10:54:21 683
原创 十种Python优雅的写法,你值得拥有!
0、前言Python是我最喜欢的语言,没有之一!Python 是一门语法很简洁的语言,它的设计哲学就是:优美胜于丑陋, 明了胜于晦涩,简单胜过复杂。下面就给大家介绍几种Pythonic的写法,让你的代码简洁明了,又不失逼格!我由浅入深,先介绍简单的一些trick,再到高级用法。注:以下代码都是基于Python 3.X1、多变量赋值常规写法:a = 1b = 2c = 3...
2019-03-10 10:07:41 2468 3
原创 【Windows Form 实战】学生成绩管理系统(八) 管理员模块设计3 视图和存储过程
【Windows Form 实战】学生成绩管理系统(八) 管理员模块设计3 视图和存储过程
2016-01-03 19:57:21 1311 1
原创 【Windows Form 实战】学生成绩管理系统(八) 管理员模块设计2
【Windows Form 实战】学生成绩管理系统(八) 管理员模块设计2
2016-01-03 18:25:57 1214
原创 【Windows Form 实战】学生成绩管理系统(七) 管理员模块设计
【Windows Form 实战】学生成绩管理系统(七) 管理员模块设计
2016-01-03 17:56:38 1246 1
原创 【Windows Form 实战】学生成绩管理系统(三) 公共类Data.cs
【Windows Form 实战】学生成绩管理系统(三) 公共类Data.cs
2016-01-03 16:06:49 1464
转载 【LeetCode】 Largest Rectangle in Histogram O(n) 解法详析
[LeetCode] Largest Rectangle in Histogram O(n) 解法详析
2015-12-09 13:58:46 341
training-parallel-nc-v8.gz
2019-07-05
NCUT多模式教学网课件下载器V4.0
2016-05-25
学生成绩管理系统项目源代码 和 数据库文件
2016-01-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人