水木-刘
码龄11年
关注
提问 私信
  • 博客:70,082
    70,082
    总访问量
  • 36
    原创
  • 647,311
    排名
  • 44
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2013-12-29
博客简介:

u013319237的博客

查看详细资料
个人成就
  • 获得18次点赞
  • 内容获得23次评论
  • 获得62次收藏
创作历程
  • 36篇
    2017年
成就勋章
TA的专栏
  • test
  • 论文笔记
    20篇
  • 数学笔记
    5篇
  • 机器学习笔记
    3篇
  • 读书笔记
    6篇
兴趣领域 设置
  • 移动开发
    flutter
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

《Efficient Batch Processing for Multiple Keyword Queries on Graph Data》——论文笔记

ABSTRACT目前的关键词查询只关注单个查询。对于查询系统来说,短时间内会接受大批量的关键词查询,往往不同查询包含相同的关键词。 因此本文研究图数据多关键词查询的批处理。为多查询和单个查询找到最优查询计划都是非常复杂的。我们首先提出两个启发式的方法使关键词的重叠最大并优先处理规模小的关键词。然后设计了一个同时考虑了数据统计信息和搜索语义的基于cardinality的成本估计模型。1. INTRO
原创
发布博客 2017.08.11 ·
574 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

《BLINKS: Ranked Keyword Searches on Graphs》——论文笔记

ABSTRACT目前关键词查询的技术缺陷:poor worst-case performance, not taking full advantage of indexes, and high memory requirements. 本文方法:BLINKS, a bi-level indexing and query processing scheme for top-k keyword se
原创
发布博客 2017.07.25 ·
1438 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

《Spark快速大数据分析》——读书笔记(5)

第五章 数据读取与保存5.1 动机动机:数据量比较大,单台机器无法完成。 三类常见的数据源:文件格式与文件系统。对于存储在本地文件系统或分布式文件系统(比如NFS、HDFS、Amazon S3等)中的数据,Spark可以访问很多种不同的文件格式,包括文本文件、JSONSequenceFile以及protocal buffer。Spark SQL中的结构化数据源。数据库与键值存储。5.2 文
原创
发布博客 2017.07.20 ·
1169 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

《Spark快速大数据分析》——读书笔记(4)

第4章 键值对操作键值对RDD通常用来进行聚合计算。我们一般要先通过一些初试ETL(抽取、转化、装载)操作来将数据转化为键值对形式。 本章也会讨论用来让用户控制键值对RDD在各节点上分布情况的高级特性:分区。4.1 动机pair RDD(包含键值对类型的RDD)提供了并行操作各个键或跨节点重新进行数据分组的操作接口。4.2 创建Pair RDD当需要把一个普通的RDD转为pair RDD时,可以调
原创
发布博客 2017.07.20 ·
2454 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

《Spark快速大数据分析》——读书笔记(3)

只看书是快,但是动手时会遇到种种问题,不可怠慢!第3章 RDD编程弹性分布式数据集(Resilient Distributed Dataset,RDD)其实就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。3.1 RDD基础Spark中RDD是一个不可变的分布式对象集合。每个RDD都被分为多个分区,分区运行在集群的不同节点上。RDD可以
原创
发布博客 2017.07.17 ·
566 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

《Spark快速大数据分析》——读书笔记(1,2)

推荐序带来革命性改变的并非海量数据本身,而是我们如何利用这些数据。大数据解决方案的强大在于他们可以快速处理大规模、复杂的数据集,可以比传统方法更快,更好的生成洞见。 大数据解决方案通常包含多个组件,但数据处理引擎之于大数据就像CPU之于计算机。 Spark允许用户程序将数据加载到集群内存中用于反复查询,非常适用于大数据和机器学习。译者序如今,硬件产业的不断发展使得内存计算成为了可能,Spark
原创
发布博客 2017.07.16 ·
892 阅读 ·
0 点赞 ·
2 评论 ·
1 收藏

《2015》——王小波

这是王小波的一篇中篇小说,我花了几个小时读完之后,脑子里并没有太大的感触,也不知道作何感想,和往常一样我去找其他人的评论和感触。这些评论主要在叵测,规则和性爱方面进行叙述。小舅因为画叵测被吊销画家执照,因为卖画而多次被拘留、进习艺所、被劳改,同时也吸引了小舅妈等女人。但是当“我”发现了 曼特波罗集之后,“拯救”了小舅,小舅的画不叵测了,却也过气了。小舅妈这里也值得思考——“这似乎是说,假如小舅继续叵
原创
发布博客 2017.07.02 ·
9549 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

《苏菲的世界》——读书笔记

伊甸园你是谁? 如果换个名字,换个长相还是自己么? 终有一天会死去,届时才会体会到生命是多么可贵。 世界从何而来? 在某一时刻,事物必然曾经从无到有。 席德是谁?魔术师的礼帽有一些东西是人人需要的,那就是:明白我们是谁、为何会在这里。这是最基本的哲学问题。 哲学之所以产生是因为人有好奇心。 成为一个优秀哲学家的唯一条件是有好奇心。不要把
原创
发布博客 2017.07.02 ·
7033 阅读 ·
2 点赞 ·
1 评论 ·
8 收藏

《Keyword Search over RDF Graphs》——读书笔记

ABSTRACT知识库中的实体和关系非常重要,但是主要以RDF形式存储,需以结构化的语言查询,如SPARQL。但是结构化的查询对查询者要求较高,使得资源难以被利用,关键词查询显得非常有必要。本文设计了在RDF图上进行关键字查询的检索模型,检索出匹配关键字的一系列子图并排序。INTRODUCTION现在的知识库被表示为RDF图,点——实体,边——关系。 结构化的查询不方便,所以使用关键词查询。输入关
原创
发布博客 2017.06.25 ·
959 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

《Keyword Search on RDF Graphs — A Query Graph Assembly Approach》——读书笔记之motivation

假期的第一篇论文,希望有一个有意义的暑假 ABSTRACT关键词搜索为一般用户搜索RDF图提供易用接口。(动机&意义)本文对给定的关键词生成查询图。定义了query graph assembly(QGA)问题,并证明其为NP完全问题。设计了一些heuristic lower bounds and propose a bipartite graph matching-based bset-first
原创
发布博客 2017.06.24 ·
572 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

《RDF Graph Partitions: a Brief Survey》——笔记

Abstract给出图分割的理由和解决方案。使用经典图形理论解决图分割问题。提出四种将RDF图转换为古典图形的方法。Introduction语义Web和Linked Data environments的核心数据模型。 RDF图规模太大,无法单机处理。早期的解决方法来此RDBMS。PreliminariesRDF是一个非常一般的数据模型,用于描述资源和他们之间的关系。 **Definition 2
原创
发布博客 2017.05.14 ·
1433 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

《Evaluating SPARQL Queries on Massive RDF Datasets》——笔记

Abstract现在的系统大部分生成静态分区,对于一些不适合现有分区的查询并不友好。本文提出AdHash。初始时,采用哈希分区。快捷且可并行。监视数据访问模式并通过逐步重新分发和复制经常访问的数据来动态地适应查询负载。IntroductionRDF不需要预定义模式,可以方便的表示不同来源的数据,因此被社交网络,搜索引擎等广泛使用。传统的集中式RDF系统,如:RDF-3X和TripleBit不能
原创
发布博客 2017.05.14 ·
316 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

《An Experimental Comparison of Partitioning Strategies in Distributed Graph Processing》——论文笔记

ABSTRACT在不同处理系统,应用,图,运行环境下,分区策略选择的问题。没有单个的策略适用于所有环境,实验表明分区策略取决于(1)输入图的度数分布(2)应用程序的类型和持续时间(3)集群大小。1. INTRODUCTION现在有各种各样的图,其规模很大,故出现了一些图处理系统,可以编写vertex-program。但在处理大图之前,首先需要对图进行划分。 划分对接下来的计算步骤会产生巨大的影响。
原创
发布博客 2017.05.09 ·
788 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

《EAGRE: Towards scalable I/O efficient SPARQL query evaluation on the cloud》——论文笔记

ABSTRACT使用高级声明式编程语言如Pig或设计复杂的MapReduce作业来评估SPARQL查询方面有一定的进展,但两者都需要很多的连接操作。由于云存储的简单性和现有解决方案中RDF数据的粗略组织,多个连接操作带来大量I/O操作,我们提出了EAGRE——an Entity-Aware Cloud Graph compREssion technique.可以在云平台上形成RDF数据的新型表示。基
原创
发布博客 2017.05.06 ·
358 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

《Scalable SPARQL Querying using Path Partitioning》

ABSTRACT对大RDF图进行复杂查询的需求,要求查询的scalable。分区间查询费事,本文提出新的数据划分方法,利用了RDf数据集中丰富的结构信息,减少了分区间连接,效果很好。INTRODUCTIONRDF增长——超出单机运算能力。 RDF表形式——图形式,举例图1(a) SPARQL——建模为图,举例图1(b) 在scale-out RDF 数据处理系统中,RDF在被分区到不同的计算节
原创
发布博客 2017.05.05 ·
598 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

《A Distributed Graph Engine for Web Scale RDF Data》2013——笔记

ABSTRACT现有系统无法有效处理Web规模的RDF数据,不支持对RDF数据的许多有用和通用的基于图形的操作。本文使用Trinity.RDF,以原始图形式存储RDF数据,而不是三元组或者位图矩阵。IntroductionRDF数据越来越多。 数据库管理系统面临两个挑战:systems’ scalability and generality. 1.目前以三元组为形式并使用RDBMS进行存储,索
原创
发布博客 2017.04.17 ·
1112 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

《Scaling Queries over Big RDF Graphs with Semantic Hash Partitioning》——笔记

ABSTRACT首先,我们提出的语义哈希分割方法通过基于方向的三组和基于方向的三重复来扩展简单的哈希分区方法。后者通过数据访问位置的智能利用通过受控数据复制来增强前者,使得可以以零或非常少量的机器间通信成本处理对大RDF图的查询。 第二,通过有效地最小化查询处理的机器间通信成本,我们生成比流行的多节点RDF数据管理系统更有效的地方优化的查询执行计划。 第三,我们提供一套局部感知优化技术,以进一步
原创
发布博客 2017.04.10 ·
673 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

《gStore: a graph-based SPARQL query engine》——读书笔记

又一篇期刊文章,现在愈发觉得还是应该多读文章,多实现文章的代码,才是正理呀。Abstract针对RDF数据集进行快速的SPARQL查询。利用索引,剪枝和高效的搜索算法。IntroductionRDF (Resource Description Framework) 用于对Web对象进行建模。 RDF数据集即:(subject, property, object) 或 Related work存储和
原创
发布博客 2017.03.28 ·
1153 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

《Processing SPARQL queries over distributed RDF graphs》——读书笔记

这次读论文给了我惨痛的教训,不做笔记是不行的,越长的论文越应该做笔记!不可怠惰!Abstractpropose techniques for processing SPARQL queries over a large RDF graph in a distributed environment. “partial evaluation and assembly” framework. par
原创
发布博客 2017.03.06 ·
923 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

《机器学习实战》——读书笔记1

前言 在大学里,最好的方面不是你研修的课程或从事的研究,而是一些外围活动:与人会面、参加研讨会、加入组织、旁听课程,以及学习未知的知识。 一个机构会雇佣一些理论家(思考者)以及一些做实际工作的人(执行者)。前者可能会将大部分时间花在学术工作上,他们的日常工作就是基于论文产生思路,然后通过高级工具或教学进行建模。后者则通过编写代码与真实世界交互,处理非理想世界中的瑕疵,比如崩溃的及其或带噪声的数
原创
发布博客 2017.03.01 ·
387 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多