水木-刘-CSDN博客

原创《Efficient Batch Processing for Multiple Keyword Queries on Graph Data》——论文笔记

ABSTRACT目前的关键词查询只关注单个查询。对于查询系统来说，短时间内会接受大批量的关键词查询，往往不同查询包含相同的关键词。因此本文研究图数据多关键词查询的批处理。为多查询和单个查询找到最优查询计划都是非常复杂的。我们首先提出两个启发式的方法使关键词的重叠最大并优先处理规模小的关键词。然后设计了一个同时考虑了数据统计信息和搜索语义的基于cardinality的成本估计模型。1. INTRO

2017-08-11 15:28:48 522 1

原创《BLINKS: Ranked Keyword Searches on Graphs》——论文笔记

ABSTRACT目前关键词查询的技术缺陷：poor worst-case performance, not taking full advantage of indexes, and high memory requirements. 本文方法：BLINKS, a bi-level indexing and query processing scheme for top-k keyword se

2017-07-25 10:31:25 1323

原创《Spark快速大数据分析》——读书笔记（5）

第五章数据读取与保存5.1 动机动机：数据量比较大，单台机器无法完成。三类常见的数据源：文件格式与文件系统。对于存储在本地文件系统或分布式文件系统（比如NFS、HDFS、Amazon S3等）中的数据，Spark可以访问很多种不同的文件格式，包括文本文件、JSONSequenceFile以及protocal buffer。Spark SQL中的结构化数据源。数据库与键值存储。5.2 文

2017-07-20 22:52:19 1121

原创《Spark快速大数据分析》——读书笔记（4）

第4章键值对操作键值对RDD通常用来进行聚合计算。我们一般要先通过一些初试ETL（抽取、转化、装载）操作来将数据转化为键值对形式。本章也会讨论用来让用户控制键值对RDD在各节点上分布情况的高级特性：分区。4.1 动机pair RDD（包含键值对类型的RDD）提供了并行操作各个键或跨节点重新进行数据分组的操作接口。4.2 创建Pair RDD当需要把一个普通的RDD转为pair RDD时，可以调

2017-07-20 10:39:17 2353

只看书是快，但是动手时会遇到种种问题，不可怠慢！第3章 RDD编程弹性分布式数据集（Resilient Distributed Dataset，RDD）其实就是分布式的元素集合。在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。3.1 RDD基础Spark中RDD是一个不可变的分布式对象集合。每个RDD都被分为多个分区，分区运行在集群的不同节点上。RDD可以

2017-07-17 09:25:05 524

原创《Spark快速大数据分析》——读书笔记（1,2）

推荐序带来革命性改变的并非海量数据本身，而是我们如何利用这些数据。大数据解决方案的强大在于他们可以快速处理大规模、复杂的数据集，可以比传统方法更快，更好的生成洞见。大数据解决方案通常包含多个组件，但数据处理引擎之于大数据就像CPU之于计算机。 Spark允许用户程序将数据加载到集群内存中用于反复查询，非常适用于大数据和机器学习。译者序如今，硬件产业的不断发展使得内存计算成为了可能，Spark

2017-07-16 22:14:55 835 2

原创《2015》——王小波

这是王小波的一篇中篇小说，我花了几个小时读完之后，脑子里并没有太大的感触，也不知道作何感想，和往常一样我去找其他人的评论和感触。这些评论主要在叵测，规则和性爱方面进行叙述。小舅因为画叵测被吊销画家执照，因为卖画而多次被拘留、进习艺所、被劳改，同时也吸引了小舅妈等女人。但是当“我”发现了曼特波罗集之后，“拯救”了小舅，小舅的画不叵测了，却也过气了。小舅妈这里也值得思考——“这似乎是说，假如小舅继续叵

2017-07-02 18:31:09 9159

原创《苏菲的世界》——读书笔记

伊甸园你是谁？如果换个名字，换个长相还是自己么？终有一天会死去，届时才会体会到生命是多么可贵。世界从何而来？在某一时刻，事物必然曾经从无到有。席德是谁？魔术师的礼帽有一些东西是人人需要的，那就是：明白我们是谁、为何会在这里。这是最基本的哲学问题。哲学之所以产生是因为人有好奇心。成为一个优秀哲学家的唯一条件是有好奇心。不要把

2017-07-02 18:03:19 6809 1

原创《Keyword Search over RDF Graphs》——读书笔记

ABSTRACT知识库中的实体和关系非常重要，但是主要以RDF形式存储，需以结构化的语言查询，如SPARQL。但是结构化的查询对查询者要求较高，使得资源难以被利用，关键词查询显得非常有必要。本文设计了在RDF图上进行关键字查询的检索模型，检索出匹配关键字的一系列子图并排序。INTRODUCTION现在的知识库被表示为RDF图，点——实体，边——关系。结构化的查询不方便，所以使用关键词查询。输入关

2017-06-25 10:57:42 912

原创《Keyword Search on RDF Graphs — A Query Graph Assembly Approach》——读书笔记之motivation

假期的第一篇论文，希望有一个有意义的暑假 ABSTRACT关键词搜索为一般用户搜索RDF图提供易用接口。（动机&意义）本文对给定的关键词生成查询图。定义了query graph assembly（QGA）问题，并证明其为NP完全问题。设计了一些heuristic lower bounds and propose a bipartite graph matching-based bset-first

2017-06-24 08:43:58 527

原创《RDF Graph Partitions: a Brief Survey》——笔记

Abstract给出图分割的理由和解决方案。使用经典图形理论解决图分割问题。提出四种将RDF图转换为古典图形的方法。Introduction语义Web和Linked Data environments的核心数据模型。 RDF图规模太大，无法单机处理。早期的解决方法来此RDBMS。PreliminariesRDF是一个非常一般的数据模型，用于描述资源和他们之间的关系。 **Definition 2

2017-05-14 18:21:09 1383

原创《Evaluating SPARQL Queries on Massive RDF Datasets》——笔记

Abstract现在的系统大部分生成静态分区，对于一些不适合现有分区的查询并不友好。本文提出AdHash。初始时，采用哈希分区。快捷且可并行。监视数据访问模式并通过逐步重新分发和复制经常访问的数据来动态地适应查询负载。IntroductionRDF不需要预定义模式，可以方便的表示不同来源的数据，因此被社交网络，搜索引擎等广泛使用。传统的集中式RDF系统，如：RDF-3X和TripleBit不能

2017-05-14 11:42:16 284

原创《An Experimental Comparison of Partitioning Strategies in Distributed Graph Processing》——论文笔记

ABSTRACT在不同处理系统，应用，图，运行环境下，分区策略选择的问题。没有单个的策略适用于所有环境，实验表明分区策略取决于（1）输入图的度数分布（2）应用程序的类型和持续时间（3）集群大小。1. INTRODUCTION现在有各种各样的图，其规模很大，故出现了一些图处理系统，可以编写vertex-program。但在处理大图之前，首先需要对图进行划分。划分对接下来的计算步骤会产生巨大的影响。

2017-05-09 15:28:53 734

原创《EAGRE: Towards scalable I/O efficient SPARQL query evaluation on the cloud》——论文笔记

ABSTRACT使用高级声明式编程语言如Pig或设计复杂的MapReduce作业来评估SPARQL查询方面有一定的进展，但两者都需要很多的连接操作。由于云存储的简单性和现有解决方案中RDF数据的粗略组织，多个连接操作带来大量I/O操作，我们提出了EAGRE——an Entity-Aware Cloud Graph compREssion technique.可以在云平台上形成RDF数据的新型表示。基

2017-05-06 21:50:26 331

原创《Scalable SPARQL Querying using Path Partitioning》

ABSTRACT对大RDF图进行复杂查询的需求，要求查询的scalable。分区间查询费事，本文提出新的数据划分方法，利用了RDf数据集中丰富的结构信息，减少了分区间连接，效果很好。INTRODUCTIONRDF增长——超出单机运算能力。 RDF表形式——图形式，举例图1（a） SPARQL——建模为图，举例图1（b）在scale-out RDF 数据处理系统中，RDF在被分区到不同的计算节

2017-05-05 21:00:45 556

原创《A Distributed Graph Engine for Web Scale RDF Data》2013——笔记

ABSTRACT现有系统无法有效处理Web规模的RDF数据，不支持对RDF数据的许多有用和通用的基于图形的操作。本文使用Trinity.RDF，以原始图形式存储RDF数据，而不是三元组或者位图矩阵。IntroductionRDF数据越来越多。数据库管理系统面临两个挑战：systems’ scalability and generality. 1.目前以三元组为形式并使用RDBMS进行存储，索

2017-04-17 17:11:30 986 1

原创《Scaling Queries over Big RDF Graphs with Semantic Hash Partitioning》——笔记

ABSTRACT首先，我们提出的语义哈希分割方法通过基于方向的三组和基于方向的三重复来扩展简单的哈希分区方法。后者通过数据访问位置的智能利用通过受控数据复制来增强前者，使得可以以零或非常少量的机器间通信成本处理对大RDF图的查询。第二，通过有效地最小化查询处理的机器间通信成本，我们生成比流行的多节点RDF数据管理系统更有效的地方优化的查询执行计划。第三，我们提供一套局部感知优化技术，以进一步

2017-04-10 17:08:40 634

原创《gStore: a graph-based SPARQL query engine》——读书笔记

又一篇期刊文章，现在愈发觉得还是应该多读文章，多实现文章的代码，才是正理呀。Abstract针对RDF数据集进行快速的SPARQL查询。利用索引，剪枝和高效的搜索算法。IntroductionRDF (Resource Description Framework) 用于对Web对象进行建模。 RDF数据集即：(subject, property, object) 或 Related work存储和

2017-03-28 09:51:13 1104 1

原创《Processing SPARQL queries over distributed RDF graphs》——读书笔记

这次读论文给了我惨痛的教训，不做笔记是不行的，越长的论文越应该做笔记！不可怠惰！Abstractpropose techniques for processing SPARQL queries over a large RDF graph in a distributed environment. “partial evaluation and assembly” framework. par

2017-03-06 13:40:21 867

原创《机器学习实战》——读书笔记1

前言在大学里，最好的方面不是你研修的课程或从事的研究，而是一些外围活动：与人会面、参加研讨会、加入组织、旁听课程，以及学习未知的知识。一个机构会雇佣一些理论家（思考者）以及一些做实际工作的人（执行者）。前者可能会将大部分时间花在学术工作上，他们的日常工作就是基于论文产生思路，然后通过高级工具或教学进行建模。后者则通过编写代码与真实世界交互，处理非理想世界中的瑕疵，比如崩溃的及其或带噪声的数

2017-03-01 23:36:45 357

原创《Joint segmentation and NER using dual decomposition in Chinese discharge summaires》——笔记

ABSTRACT三方面的工作： - 标注一个中文出院小结的标准语料集 - 在该数据集上进行，分词和命名实体识别 - 建立一个分词和命名实体识别的联合模型提出了一个联合模型，使用双重分解来执行两个任务，设计了三组特征来展示联合模型与独立模型，增量模型和在组合标签上训练的联合模型相比的优点。利用336份出院小结共71 355个字。对于分词和NER，联合模型是高效且有作用的。INT

2017-02-27 20:32:34 407

原创《大规模图数据匹配技术综述》——笔记

摘要在大规模图数据上进行高效地查询、匹配是大数据分析处理的基础问题。从应用角度对图查询的图数据匹配技术的研究进展进行综述，根据图数据的不同特征以及应用的不同需求对图匹配问题分类进行介绍。同时，将重点介绍精确图匹配，包括无索引的匹配和基于索引的匹配，以及相关的关键技术、主要算法、性能评价等进行了介绍、测试和分析。最后对图匹配技术的应用现状和面临的问题进行了总结，并对该技术的未来趋势进行了展望。相关背景

2017-02-27 14:52:53 8729 4

原创《机器学习实战》——读书笔记1

前言在大学里，最好的方面不是你研修的课程或从事的研究，而是一些外围活动：与人会面、参加研讨会、加入组织、旁听课程，以及学习未知的知识。一个机构会雇佣一些理论家（思考者）以及一些做实际工作的人（执行者）。前者可能会将大部分时间花在学术工作上，他们的日常工作就是基于论文产生思路，然后通过高级工具或教学进行建模。后者则通过编写代码与真实世界交互，处理非理想世界中的瑕疵，比如崩溃的及其或带噪声的数据

2017-02-21 14:45:26 625

原创《面向慢性病的中文健康问答框架研究与实现》——笔记

第 1 章引言1.1 研究背景1.1.1 互联网时代的健康服务医疗健康产业发展带来了大量的数据。1.1.2 数据处理技术的发展数据库技术、数据挖掘技术、自然语言处理技术的发展。1.1.3 人口老龄化和慢性病现状即有在线健康服务的需求。1.1.4 在线健康问答服务1.1.4.1 在线健康问答服务的类型搜索引擎基于社区的问答服务基于专家的问答服务1.2 健康问答系统1.2.1 概念一种是基于准

2017-02-16 21:09:51 1055 1

原创《中文电子病历实体关系抽取研究》——笔记

摘要本文首先对电子病历去隐私，制定了隐私信息标注规范，使用条件随机场完成了隐私信息识别模型的构建。使用992份经去隐私的已标注中文电子病历，首先实现了基于特征的关系抽取方法，通过抽取一些基本特征以及中文电子病历中一些特有的特征，训练支持向量机（SVM）单分类器并分析了实验结果。然后针对单分类器中关系大类的误分类情况，将单分类器分解为多个分类器用于处理指定关系大类下的样本。基于树核函数的方法：

2017-02-14 19:22:31 7069 9

原创《A comprehensive study of named entity recognition in Chinese clinical text》——笔记

ABSTRACTObjectiveThe goal of this study was to systematically investigate features and machine learning algorithms for NER in Chinese clinical text.Materials and methods来自协和医院的400份入院记录和400份出院小结，抽取四种实体，

2017-02-13 15:40:15 932 2

原创《机器学习》——附录

A矩阵A.1 基本演算转置矩阵 (A+B)T(AB)T=AT+BT=BTAT(1)(2)\begin{align}(\boldsymbol{A}+\boldsymbol{B})^T&=\boldsymbol{A}^T+\boldsymbol{B}^T \tag 1\\ (\boldsymbol{A}\boldsymbol{B})^T&=\boldsymbol{B}^T\boldsymbol{A

2017-02-07 10:33:01 791

原创《机器学习》——读书笔记2

事实证明，寒假在家也并不能高效工作，年前准备过年，年后没事了，想动手却冻手，幸好姥姥家里暖和，过年姥姥又伤风感冒，姥姥今年74，姥爷今年81，今天本来到邢台的，但是放心不下又回来了，愿姥姥姥爷健康长寿，别无他求。第 3 章线性模型3.1 基本形式给定由d个属性描述的实例x=(x1;x2;...;xd)\boldsymbol{x}=(x_1;x_2;...;x_d),线性模型试图学得一个通过属性的线

2017-02-03 15:49:18 541

原创《概率统计与随机过程》——笔记3

第三章二维随机变量3.1 联合分布定义1 设试验E的样本空间为S={e}，而X=X(e),Y=Y(e)是定义在S上的两个随机变量。称由这两个随机变量组成的向量(X,Y)为二维随机变量或二维随机向量。定义 2 设(X,Y)为二维随机变量，对任意实数x,y，二元函数F(x,y)=P{X≤x,Y≤y}F(x,y)=P\{X\le x,Y\le y\}称为二维随机变量（X,Y）的分布函数，或称之为随机

2017-01-24 17:28:24 1469

原创《机器学习》——读书笔记1

写在前面的话：周志华老师的这本书，我多次尝试阅读了，=-=，但却每次都坚持不下来，最后只是一个不明真相的吃瓜群众。每次心中却隐隐较着劲似得想要重头读一遍，这次恰逢年关，趁此闲暇，好好拜读一番！第一章绪论1.1 引言通过买西瓜的例子引入。机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。机器学习形式化的定义：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E

2017-01-24 16:06:42 1736

原创《线性代数》——读书笔记2

第二章矩阵写在前面的话，当初去北大面试的时候，那老师问了我好些矩阵的知识，我也真是醉醉的，他和我说知道就说，不知道也没关系，我就想问没关系那你还问个什么=-=，现在赶紧好好复习下，省的以后再被问到=_= 话说矩阵这边的东西怎么这么多=-= 相关链接： http://lixueyuan.lnpu.edu.cn/jpk_xxds/xtzd/ch2.htm2.1 矩阵的概念定义 2.1.1数域P上m

2017-01-23 18:53:42 1224

原创《线性代数》——读书笔记1

第一章行列式1.1 n阶行列式1.1.1 排列与逆序定义 1.1.1 由自然数1,2,…,n组成的一个有序数组称为一个n阶排列，记为j1,j2...jnj_1,j_2...j_n。按数字的自然排序由小到大的n阶排列123…n称为标准排列或自然排列。定义 1.1.2 在一个排列中，若一个较大的数排在一个较小的数的前面，则称这两个数构成了一个逆序。一个排列中所有的逆序的总数称为这个排列的逆序数。用

2017-01-22 16:56:25 3678

原创《概率统计与随机过程》——笔记2

第2章随机变量及其分布2.1 随机变量定义 1 设随机试验E的样本空间S={e}。若对每个试验结果e，都有确定的实数X(e)与之对应，则称实值变量X(e)为随机变量，简记为X。引入随机变量后，随机事件就可以用随机变量的取值来表示了。2.2 分布函数定义 2 设X为随机变量，对于任意实数x，令F(x)=PX≤xF(x)=P{X\le x}称F(x)为随机变量X的分布函数。性质： 1. 取值

2017-01-22 12:08:47 1160

原创《概率统计与随机过程》——笔记1

第一章随机事件的概率1.1 随机事件与样本空间1.1.1 随机试验与随机事件试验：各式各样的科学实验或对某一事物的某种特性的观察。随机试验：如果在相同的条件下可以重复进行，而且每次试验的结果事前不可预言，简称试验。随机事件（事件）：在试验中可能发生，也可能不发生的事件。基本事件（样本点）：试验中的每一个可能结果都是一个最简单的随机事件。必然事件：在试验中必然会发生的事件。不可能

2017-01-21 13:09:05 1927

原创《Named Entity Recognition in Chinese Clinical Text Using Deep Neural Network》——笔记

AbstractWe investigated a novel deep learning method to recognize clinical entities in Chinese clinical documents using the minimal feature engineering approach.We developed a deep neural network (DNN)

2017-01-15 17:48:00 1509

原创《利用条件随机场实现中文病历文本中时间关系的自动提取》——阅读笔记

《利用条件随机场实现中文病历文本中时间关系的自动提取》——阅读笔记摘要提出一种基于CRF的时间关系提取算法。以经过医学问题和时间信息语义标注的病历为训练内容，时间关系结果标注采用以医学问题为中心的模式。以63份实际病历作为实验文本。引言时间关系非常重要，如，哥伦比亚大学Zhou等开发的TimeText系统。中文面向医学临床文本，服务于医疗信息化的研究仍处空白。1 条件随机场CRF 避免了隐马尔可

2017-01-14 16:29:30 657

u013319237的博客

原创《Efficient Batch Processing for Multiple Keyword Queries on Graph Data》——论文笔记

原创《BLINKS: Ranked Keyword Searches on Graphs》——论文笔记

原创《Spark快速大数据分析》——读书笔记（5）

原创《Spark快速大数据分析》——读书笔记（4）

原创《Spark快速大数据分析》——读书笔记（3）

原创《Spark快速大数据分析》——读书笔记（1,2）

原创《2015》——王小波

原创《苏菲的世界》——读书笔记

原创《Keyword Search over RDF Graphs》——读书笔记

原创《Keyword Search on RDF Graphs — A Query Graph Assembly Approach》——读书笔记之motivation

原创《RDF Graph Partitions: a Brief Survey》——笔记

原创《Evaluating SPARQL Queries on Massive RDF Datasets》——笔记

原创《An Experimental Comparison of Partitioning Strategies in Distributed Graph Processing》——论文笔记

原创《EAGRE: Towards scalable I/O efficient SPARQL query evaluation on the cloud》——论文笔记

原创《Scalable SPARQL Querying using Path Partitioning》

原创《A Distributed Graph Engine for Web Scale RDF Data》2013——笔记

原创《Scaling Queries over Big RDF Graphs with Semantic Hash Partitioning》——笔记

原创《gStore: a graph-based SPARQL query engine》——读书笔记

原创《Processing SPARQL queries over distributed RDF graphs》——读书笔记

原创《机器学习实战》——读书笔记1

原创《Joint segmentation and NER using dual decomposition in Chinese discharge summaires》——笔记

原创《大规模图数据匹配技术综述》——笔记

原创《机器学习实战》——读书笔记1

原创《面向慢性病的中文健康问答框架研究与实现》——笔记

原创《中文电子病历实体关系抽取研究》——笔记

原创《A comprehensive study of named entity recognition in Chinese clinical text》——笔记

原创《机器学习》——附录

原创《机器学习》——读书笔记2

原创《概率统计与随机过程》——笔记3

原创《机器学习》——读书笔记1

原创《线性代数》——读书笔记2

原创《线性代数》——读书笔记1

原创《概率统计与随机过程》——笔记2

原创《概率统计与随机过程》——笔记1

原创《Named Entity Recognition in Chinese Clinical Text Using Deep Neural Network》——笔记

原创《利用条件随机场实现中文病历文本中时间关系的自动提取》——阅读笔记

空空如也

空空如也