月下独听雪-CSDN博客

原创 Content-based table retrieval for web queries

发表期刊：Neurocomputing论文连接：https://www.sciencedirect.com/science/article/pii/S0925231218312219摘要论文重点关注基于内容的表检索，给定一个查询，任务是从一组表中找到最相关的表。在该任务的研究中，如果想要取得好的结果需要一个强大的语义匹配模型和更丰富的训练和评估预料。为了解决这一问题，论文提出了一种基于排名的方法，通过对查询语句特征的提取和神经网络结构的结合来计算查询和表内容之间的相关性。介绍给定一个查询，任务是从

2021-08-03 02:13:19 331

原创安装MySQL5.7

MySQL 5.7 压缩包安装与环境配置MySQL 5.7的下载地址目前MySQL的最新版本时8.0.25，这里我们之所以安装5.7版本的是因为该的较为稳定。1、选择对应的压缩包下载(32位或64位)2、直接解压MySQL压缩包到环境目录解压到环境目录下配置环境3、新建一个my.ini配置文件这里可以先创建一个txt文件，然后将其重命名为my.ini在文件中输入一下内容：[mysqld]basedir=D:\Environment\mysql-5.7.34datadir=

2021-07-11 20:18:31 134

原创自然语言文本问题与表格结合的预训练模型

论文来源TABERT: Pretraining for Joint Understanding of Textual and Tabular Data摘要近年来，基于文本的自然语言理解任务的预训练语言模型蓬勃发展。这种模型通常是在自由形式的自然语言文本上训练的，因此可能不适合像结构化数据上的语义解析这样的任务，这些任务需要对自由形式的自然语言问题和结构化表格数据(例如，数据库表)进行推理。论文提出的TaBert是一种联合学习自然语言问句与结构化表格的预训练模型，该模型实在bert的基础上进行建立的，能

2021-07-10 20:52:35 1081

原创 Description Based Text Classification with Reinforcement Learning

文本分类通常分为两个阶段文本特征提取文本分类在标准化形式中，类别仅代表了标签词汇表中的索引，模型缺乏关于分类内容的描述。论文方法概述论文提出了一个新的文本分类框架，其中每个类别标签都与一个类别描述相关联。描述是由手工制作的模板或使用强化学习的抽象/提取模型生成的。描述和文本的连接被提供给分类器，以决定是否应该将当前标签分配给文本。文本分类任务: 将一个或多个类别标签分配给一个文本标记序列(情感分类、主题分类、垃圾邮件检测等)文本分类任务的这种标准形式化有一个内在的缺点:类别仅仅表示为标签词汇

2021-06-08 13:03:10 310

原创 An autonomous debating system(部分内容: 该模型是如何了解语义信息的)

Project Debater’s ComponentsProject Debater的组成部分:Wikification将给定文本中的内容映射到维基百科中对应的概念短语Semantic Relatedness of Wikipedia Concepts该部分评估两个维基百科概念之间的相似性，通过构建一个大的语料库进行论点的挖掘文中使用4亿篇报纸文章作为语料库，并将其分解成句子，根据它们所引用的维基百科概念、它们提到的实体、预定义的词汇等来索引这些句子。文中将该语料库成为LexisNex

2021-04-18 21:18:49 361

原创自然语言的复杂问答向结构化语句的转化方法概述

专业知识背景下自然语言的复杂问答向SQL语句的转化方法研究背景从人工智能研究的初期开始，人们就致力于开发高度智能化的人机对话系统。随着互联网的飞速发展，网络中心海量信息每天都在不断更新，因此，问答系统依据人们对所需信息的准确获取需求，其技术也需要不断提高。而我们目前对问答系统的研究，目标就是将用户复杂的自然语言问题转化为结构化的SQL语句，以进行对问题答案的精准检索。问答系统的历史发展人们与机器的交流通常分为三类，聊天型，任务导向型和问答型，而问答系统是我们生活中最为常用的，问答型对话多指一问一答

2020-12-23 17:45:52 893

翻译 Discourse Marker Augmented Network with Reinforcement Learning for Natural Language Inference

基于连词加强网络和强化学习的自然语言推理模型这篇文章是浙江大学CAD&CG国家重点实验室和阿里巴巴-浙大前沿技术联合研究院合作设计了基于连词加强网络的自然语言推理方法，并在此基础上应用了强化学习来整合不同样本的标注意见不统一的情况，从而提升模型的稳定性。该成果已发表于自然语言处理领域国际顶级会议ACL 2018。最近看到这篇文章感到对自己启发挺大，所以写个微博记录一下~摘要自然语言推理（Natural Language Inference，NLI）也被称为文本蕴含识别（RTE），是自然语言处理

2020-10-13 16:45:02 513

原创强化学习知识总结

参考文章研一接触了强化学习，然后对其就产生了很大的兴趣。虽然有在莫烦Python上学习，也自己做过很简单的项目，但是之前对RL的学习比较混乱并不系统。正好看到这篇文章，感觉对自己有很大的帮助，就根据作者列出的知识点进行扩展学习。1. 区分强化学习、监督学习和无监督学习首先讲下监督学习与无监督学习，这两种方法是机器学习中常用到的手段。监督学习是通过训练样本来训练得到一个最优的模型，其主要应用就分类问题。利用这个模型可以将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，进而具有了对未

2020-09-26 21:13:55 376

原创在Python中向数据库中插入数据

最近在做Python项目的时候遇到一个要向数据库中插入历史记录的一个问题，需要将行List数据存到数据库中。我是使用SQList创建的数据库文件和对应的Table，但在python使用SQL语句时老是在插入的第一个元素那里报错。观察了SQL的插入语句才发现问题在哪里。。。首先看SQL语句的插入操作:INSERT INTO TableName VALUES(value1,value2,…)然后在python中为了方便操作，我写了一个函数来实现: def write(self, table, dat

2020-09-26 19:43:41 2186 3

翻译《Fast Phonetic Similarity Search over Large Repositories》——大型存储库中的快速语音相似性搜索

介绍一篇关于当存在拼写错误的字符串如何进行相似性搜索的论文，该论文结合字符串相似性和语音相似性可在大型存储库中进行快速的相似性搜索。论文连接一、介绍背景：字符串相似性算法可以处理字符串拼写错误的问题。但现有的相似度匹配方法包括使用基本的字符串相似度距离度量到使用更复杂的方法以及给定语言的单词语音表示法。编辑距离(ED)(或Levenshtein距离)是最广为人知的字符串指标。但现有的字符串相似性算法与词典的相结合其效率很低，尤其是当所分析的文本具有拼写错误时，它们不一定处理与拼写错误有关的任务。在

2020-09-16 22:59:53 223

原创两个链表的第一个公共节点---遍历彼此的节点

问题: 输入两个链表，找出它们的第一个公共节点。如下面的两个链表：分析：该问题分为两种情况情况1. 存在公共节点如果A的长度是l1+C, B的长度是l2+C。C为公共部分长度。A B长度不一样的话，首先要考虑互补彼此。因为两个指针需要一起走，所以互补的最基本方式就是公共都走(l1+l2)长度的节点，遍历到链表尾还得加C 所以是(l1+l2+C)个长度。情况2. 不存在公共点 headA headB分别遍历过彼此最后None=None 退出循环返回None这样，当他们相遇，所指的结点就是第一

2020-09-16 10:22:16 139

翻译《查询问题相似与基于Bert的FAQ问答系统》知识图谱阅读笔记(五)

一、介绍FAQ是一种常见任务检索的任务，其目标是根据用户的查询从数据库中检索适当的问答(QA)。该文章提出了一种FAQ检索系统，它们的的方法考虑了用户查询(q)和常见问题(Q)之间的相似性以及查询问题(q)和答案(A)之间的相关性。许多 FAQ检索模型使用q和QA对之间具有相关性标签的数据集。但是，构造这样的标记数据花费很多。为了解决这个问题，论文采用了一种无监督的方法来计算查询和问题之间的相似度。另一方面，可以通过在FAQ数据库中使用QA对来计算查询(q)和答案(A)之间的相关性，这显示了给定q的F

2020-09-16 10:13:20 1264 2

月下独听雪