论文笔记
水木-刘
这个作者很懒,什么都没留下…
展开
-
《利用条件随机场实现中文病历文本中时间关系的自动提取》——阅读笔记
《利用条件随机场实现中文病历文本中时间关系的自动提取》——阅读笔记摘要提出一种基于CRF的时间关系提取算法。以经过医学问题和时间信息语义标注的病历为训练内容,时间关系结果标注采用以医学问题为中心的模式。以63份实际病历作为实验文本。引言时间关系非常重要,如,哥伦比亚大学Zhou等开发的TimeText系统。中文面向医学临床文本,服务于医疗信息化的研究仍处空白。1 条件随机场CRF 避免了隐马尔可原创 2017-01-14 16:29:30 · 679 阅读 · 0 评论 -
《Evaluating SPARQL Queries on Massive RDF Datasets》——笔记
Abstract现在的系统大部分生成静态分区,对于一些不适合现有分区的查询并不友好。本文提出AdHash。初始时,采用哈希分区。快捷且可并行。监视数据访问模式并通过逐步重新分发和复制经常访问的数据来动态地适应查询负载。IntroductionRDF不需要预定义模式,可以方便的表示不同来源的数据,因此被社交网络,搜索引擎等广泛使用。传统的集中式RDF系统,如:RDF-3X和TripleBit不能原创 2017-05-14 11:42:16 · 301 阅读 · 0 评论 -
《RDF Graph Partitions: a Brief Survey》——笔记
Abstract给出图分割的理由和解决方案。使用经典图形理论解决图分割问题。提出四种将RDF图转换为古典图形的方法。Introduction语义Web和Linked Data environments的核心数据模型。 RDF图规模太大,无法单机处理。早期的解决方法来此RDBMS。PreliminariesRDF是一个非常一般的数据模型,用于描述资源和他们之间的关系。 **Definition 2原创 2017-05-14 18:21:09 · 1408 阅读 · 0 评论 -
《Scalable SPARQL Querying using Path Partitioning》
ABSTRACT对大RDF图进行复杂查询的需求,要求查询的scalable。分区间查询费事,本文提出新的数据划分方法,利用了RDf数据集中丰富的结构信息,减少了分区间连接,效果很好。INTRODUCTIONRDF增长——超出单机运算能力。 RDF表形式——图形式,举例图1(a) SPARQL——建模为图,举例图1(b) 在scale-out RDF 数据处理系统中,RDF在被分区到不同的计算节原创 2017-05-05 21:00:45 · 576 阅读 · 0 评论 -
《EAGRE: Towards scalable I/O efficient SPARQL query evaluation on the cloud》——论文笔记
ABSTRACT使用高级声明式编程语言如Pig或设计复杂的MapReduce作业来评估SPARQL查询方面有一定的进展,但两者都需要很多的连接操作。由于云存储的简单性和现有解决方案中RDF数据的粗略组织,多个连接操作带来大量I/O操作,我们提出了EAGRE——an Entity-Aware Cloud Graph compREssion technique.可以在云平台上形成RDF数据的新型表示。基原创 2017-05-06 21:50:26 · 339 阅读 · 0 评论 -
《An Experimental Comparison of Partitioning Strategies in Distributed Graph Processing》——论文笔记
ABSTRACT在不同处理系统,应用,图,运行环境下,分区策略选择的问题。没有单个的策略适用于所有环境,实验表明分区策略取决于(1)输入图的度数分布(2)应用程序的类型和持续时间(3)集群大小。1. INTRODUCTION现在有各种各样的图,其规模很大,故出现了一些图处理系统,可以编写vertex-program。但在处理大图之前,首先需要对图进行划分。 划分对接下来的计算步骤会产生巨大的影响。原创 2017-05-09 15:28:53 · 764 阅读 · 0 评论 -
《Keyword Search on RDF Graphs — A Query Graph Assembly Approach》——读书笔记之motivation
假期的第一篇论文,希望有一个有意义的暑假 ABSTRACT关键词搜索为一般用户搜索RDF图提供易用接口。(动机&意义)本文对给定的关键词生成查询图。定义了query graph assembly(QGA)问题,并证明其为NP完全问题。设计了一些heuristic lower bounds and propose a bipartite graph matching-based bset-first原创 2017-06-24 08:43:58 · 546 阅读 · 0 评论 -
《Keyword Search over RDF Graphs》——读书笔记
ABSTRACT知识库中的实体和关系非常重要,但是主要以RDF形式存储,需以结构化的语言查询,如SPARQL。但是结构化的查询对查询者要求较高,使得资源难以被利用,关键词查询显得非常有必要。本文设计了在RDF图上进行关键字查询的检索模型,检索出匹配关键字的一系列子图并排序。INTRODUCTION现在的知识库被表示为RDF图,点——实体,边——关系。 结构化的查询不方便,所以使用关键词查询。输入关原创 2017-06-25 10:57:42 · 938 阅读 · 0 评论 -
《BLINKS: Ranked Keyword Searches on Graphs》——论文笔记
ABSTRACT目前关键词查询的技术缺陷:poor worst-case performance, not taking full advantage of indexes, and high memory requirements. 本文方法:BLINKS, a bi-level indexing and query processing scheme for top-k keyword se原创 2017-07-25 10:31:25 · 1374 阅读 · 0 评论 -
《A Distributed Graph Engine for Web Scale RDF Data》2013——笔记
ABSTRACT现有系统无法有效处理Web规模的RDF数据,不支持对RDF数据的许多有用和通用的基于图形的操作。本文使用Trinity.RDF,以原始图形式存储RDF数据,而不是三元组或者位图矩阵。IntroductionRDF数据越来越多。 数据库管理系统面临两个挑战:systems’ scalability and generality. 1.目前以三元组为形式并使用RDBMS进行存储,索原创 2017-04-17 17:11:30 · 1075 阅读 · 1 评论 -
《Scaling Queries over Big RDF Graphs with Semantic Hash Partitioning》——笔记
ABSTRACT首先,我们提出的语义哈希分割方法通过基于方向的三组和基于方向的三重复来扩展简单的哈希分区方法。后者通过数据访问位置的智能利用通过受控数据复制来增强前者,使得可以以零或非常少量的机器间通信成本处理对大RDF图的查询。 第二,通过有效地最小化查询处理的机器间通信成本,我们生成比流行的多节点RDF数据管理系统更有效的地方优化的查询执行计划。 第三,我们提供一套局部感知优化技术,以进一步原创 2017-04-10 17:08:40 · 654 阅读 · 0 评论 -
《Named Entity Recognition in Chinese Clinical Text Using Deep Neural Network》——笔记
AbstractWe investigated a novel deep learning method to recognize clinical entities in Chinese clinical documents using the minimal feature engineering approach.We developed a deep neural network (DNN)原创 2017-01-15 17:48:00 · 1546 阅读 · 0 评论 -
《面向慢性病的中文健康问答框架研究与实现》——笔记
第 1 章 引言1.1 研究背景1.1.1 互联网时代的健康服务医疗健康产业发展带来了大量的数据。1.1.2 数据处理技术的发展数据库技术、数据挖掘技术、自然语言处理技术的发展。1.1.3 人口老龄化和慢性病现状即有在线健康服务的需求。1.1.4 在线健康问答服务1.1.4.1 在线健康问答服务的类型搜索引擎基于社区的问答服务基于专家的问答服务1.2 健康问答系统1.2.1 概念一种是基于准原创 2017-02-16 21:09:51 · 1082 阅读 · 1 评论 -
《Joint segmentation and NER using dual decomposition in Chinese discharge summaires》——笔记
ABSTRACT三方面的工作: - 标注一个中文出院小结的标准语料集 - 在该数据集上进行,分词和命名实体识别 - 建立一个分词和命名实体识别的联合模型 提出了一个联合模型,使用双重分解来执行两个任务,设计了三组特征来展示联合模型与独立模型,增量模型和在组合标签上训练的联合模型相比的优点。 利用336份出院小结共71 355个字。 对于分词和NER,联合模型是高效且有作用的。INT原创 2017-02-27 20:32:34 · 421 阅读 · 0 评论 -
《大规模图数据匹配技术综述》——笔记
摘要在大规模图数据上进行高效地查询、匹配是大数据分析处理的基础问题。从应用角度对图查询的图数据匹配技术的研究进展进行综述,根据图数据的不同特征以及应用的不同需求对图匹配问题分类进行介绍。同时,将重点介绍精确图匹配,包括无索引的匹配和基于索引的匹配,以及相关的关键技术、主要算法、性能评价等进行了介绍、测试和分析。最后对图匹配技术的应用现状和面临的问题进行了总结,并对该技术的未来趋势进行了展望。相关背景原创 2017-02-27 14:52:53 · 8850 阅读 · 4 评论 -
《A comprehensive study of named entity recognition in Chinese clinical text》——笔记
ABSTRACTObjectiveThe goal of this study was to systematically investigate features and machine learning algorithms for NER in Chinese clinical text.Materials and methods来自协和医院的400份入院记录和400份出院小结,抽取四种实体,原创 2017-02-13 15:40:15 · 966 阅读 · 2 评论 -
《中文电子病历实体关系抽取研究》——笔记
摘要本文首先对电子病历去隐私,制定了隐私信息标注规范,使用条件随机场完成了隐私信息识别模型的构建。 使用992份经去隐私的已标注中文电子病历,首先实现了基于特征的关系抽取方法,通过抽取一些基本特征以及中文电子病历中一些特有的特征,训练支持向量机(SVM)单分类器并分析了实验结果。然后针对单分类器中关系大类的误分类情况,将单分类器分解为多个分类器用于处理指定关系大类下的样本。 基于树核函数的方法:原创 2017-02-14 19:22:31 · 7129 阅读 · 9 评论 -
《Processing SPARQL queries over distributed RDF graphs》——读书笔记
这次读论文给了我惨痛的教训,不做笔记是不行的,越长的论文越应该做笔记!不可怠惰!Abstractpropose techniques for processing SPARQL queries over a large RDF graph in a distributed environment. “partial evaluation and assembly” framework. par原创 2017-03-06 13:40:21 · 902 阅读 · 0 评论 -
《gStore: a graph-based SPARQL query engine》——读书笔记
又一篇期刊文章,现在愈发觉得还是应该多读文章,多实现文章的代码,才是正理呀。Abstract针对RDF数据集进行快速的SPARQL查询。利用索引,剪枝和高效的搜索算法。IntroductionRDF (Resource Description Framework) 用于对Web对象进行建模。 RDF数据集即:(subject, property, object) 或 Related work存储和原创 2017-03-28 09:51:13 · 1126 阅读 · 1 评论 -
《Efficient Batch Processing for Multiple Keyword Queries on Graph Data》——论文笔记
ABSTRACT目前的关键词查询只关注单个查询。对于查询系统来说,短时间内会接受大批量的关键词查询,往往不同查询包含相同的关键词。 因此本文研究图数据多关键词查询的批处理。为多查询和单个查询找到最优查询计划都是非常复杂的。我们首先提出两个启发式的方法使关键词的重叠最大并优先处理规模小的关键词。然后设计了一个同时考虑了数据统计信息和搜索语义的基于cardinality的成本估计模型。1. INTRO原创 2017-08-11 15:28:48 · 539 阅读 · 1 评论