SIGMOD-24论文集概览

论文集link

1. Keynotes

👇The Limitations of Data, Machine Learning and Us

🏛机构:智利大学

➡️领域:

  • Social and professional topics → Computing / technology policy
  • Computing methodologies → Machine learning
  • Information systems → Data management systems

📚概述:

  • 讨论了以下主题
    • 监督学习/输入监督学习的数据的局限
    • 人类适用机器学习时的社会/认知偏见
    • 人工智能使用的监管措施

👇**The Journey to A Knowledgeable Assistant with Retrieval-Augmented Generation (RAG) **

🏛机构:Facebook (Meta)

📚概述:

  • 背景:
    • 多个研究领域(DB/NLP/AI)都致力于在一定时间提供正确信息
    • 近年LLM提出,但也可能会输出错误/虚假信息
  • 本文工作:
    • 通过实验,评估LLMs在回答事实性问题的可靠性
    • 构建Retrieval-Augmented Generation(RAG)联邦系统,整合LLM训练集以外知识,提高回答可靠性
    • 将RAG用到多模态/不同文化/个性化回答

👇Making Data Management Better with Vectorized Query Processing

📚概述:

  • 主要回顾/展望了矢量化查询
  • 矢量化查询是啥
    • 传统的查询:逐行处理(tuple-at-a-time)
    • 矢量化查询:每次处理一批固定大小的数据(称之为Vector),可实现CPU优化/缓存友好等

2. Industry Session

2.1. Query Engines

👇Apache Arrow DataFusion: A Fast, Embeddable, Modular Analytic Query Engine

🏛机构:Apache

📚概述:

  • 介绍了Apache Arrow DataFusion:一个基于Apache Arrow的查询引擎,强调快速/可嵌入/可扩展
    • Apache Arrow:跨平台数据处理工具,提供高效的内存模型
    • DataFusion:用Rust编写,具有性能+安全性的优势

👇Unified Query Optimization in the Fabric Data Warehouse

🏛机构:微软

➡️领域:Information systems → Query optimization

📚概述:

  • 背景:微软曾推出了Parallel Data Warehouse,是一种查询大量数据的并行系统
  • 本文:介绍了微软最新提出的Fabric DW
    • 文章对比了Fabric DW与传统的Parallel Data Warehouse
    • 新的优化器考虑了现代环境中的需求,如动态资源分配/计算存储分离等

**👇Measures in SQL **

🏛机构:Google

➡️领域:

  • Information systems → Relational database query languages
  • Data analytics
  • Online analytical processing

📚概述:

  • 背景:SQL已被广泛采用,但传统的SQL任然缺乏可组合计算的能力
  • 本文:提出一种新型的附加列,叫做Measure(度量)
    • 如何操作带度量的表:和普通表操作方法一样
    • 带度量的SQL的优势:可在保留SQL语义同时,通过调用Measure解决更复杂的查询
    • 度量如何计算得到:通过上下文(上下文敏感表达式)得到度量的值

👇ByteCard: Enhancing ByteDance’s Data Warehouse with Learned Cardinality Estimation

🏛机构:ByteDance

➡️领域:

  • Information systems → Data management systems
  • Computing methodologies → Machine learning

📚概述:

  • 背景:
    • 关于ByteHouse:字节公司开发的云原生数据分析引擎,用于处理超大规模数据的复杂分析任务
      ⚠️云原生数据库:指专门为云环境设计和优化的数据库系统
    • 关于基数估计:预测查询结果的数量(大小),直接影响优化器的决策,是有护额的瓶颈所在
  • ByteCard的引入:融合最近在基数估计方面的进展,构建了兼顾可靠/实用的基数估计模型

👇Automated Multidimensional Data Layouts in Amazon Redshift

🏛机构:Amazon

➡️领域:

  • Information systems → Data layout
  • Autonomous database administration
  • Online analytical processing engines

📚概述:

  • 背景:关于数据布局技术,其是DB/DW中优化存储和访问效率的策略,常见为以下几种
    种类概述示例(T=Tuple/A=Attribute)
    行存储一行数据连续存储T1/A1→T1/A2→…→T1/An→T2/A1→…→Tm/An
    列存储一列数据连续存储T1/A1→T2/A1→…→Tm/A1→T1/A2→…→Tm/An
    排序键数据按Key排序后存储N/A
    索引建立表 ↔ \xleftrightarrow{} 内存位置的索引B+树,哈希表
  • 本文的工作1:提出了多维数据布局(MDDL)
    • 核心方法:传统方法是基于一组列对表进行排序,MDDL是基于一组谓词(查询条件)对表进行排序
    • 优点:是的查询高度的定制化
  • 本文的工作2:提出一种自动化学习算法,基于历史工作负载,自动学习每个表最佳的MDDL

👇Automated Clustering Recommendation With Database Zone Maps

🏛机构:Oracle

➡️领域:Theory of computation → Database query processing and optimization (theory)

📚概述:一言蔽之,主要讲了区间图/自动聚类在数据仓库中的应用

  • 背景:关于区间图(Zone Maps)
    • 结构:将表划分为Zone,存储每个区域的最大/最小值
    • 工作原理:支持查询时,读取区间的最大/最小值,选择跳过/不跳过该区间,从而减少扫描工作量
    • 优势:在按某列排序/聚类处理后的数据上表现优越
  • 本文的工作:自动分析工作负载→推荐聚类方案(线性聚类和z-order聚类)→建区间图→提高查询性能

2.2. LLMs and ML Applications

👇Similarity Joins of Sparse Features

🏛机构:Uber

➡️领域:

  • Information systems → Clustering
  • Theory of computation → MapReduce algorithms

📚概述:提出了Fast Scalable Sparse Joiner (FSSJ)算法,用于在大规模稀疏数据上进行相似性连接

  • 一些前置知识和背景
    • 相似性连接:在两个数据集中,找出相似性超过某个阈值的记录对
    • 前缀过滤:相似性连接的一种技术
      • 含义:对比属性的前N个属性(前缀),如果两个记录的前缀不匹配,则默认不相似
      • 存在的问题:某些元素在数据集中很流行/元素分布极其不均时,过滤效率会下降
    • 稀疏特征:比如平均每个Tuple只有少数Attributes被赋值
  • 本文工作:关于FSSJ,引入Quasi-Prefix Filtering的新方法
    • 针对频繁出现的流行元素做出优化,最流行元素不会被当作前缀来过滤
    • 传统前缀过滤需对所有记录排序,然后广播给所有计算结点。准前缀过滤避免了广播操作

👇FinSQL: Model-Agnostic LLMs-based Text-to-SQL Framework for Financial Analysis

🏛机构:浙江大学

➡️领域:Information systems → Structured Query Language

📚概述:金融领域Text-to-SQL的挑战与解决

  • 背景:Text-to-SQL
    • 含义:通过自然语言生成SQL
    • 问题与挑战:金融领域缺乏实用的Text-to-SQL基准数据集,现有Text-to-SQL没考虑金融数据库特点
  • 本文的工作
    • BULL数据集:收集的一个实用的Text-to-SQL基准数据集
    • FinSQL框架:一个基于大语言模型的Text-to-SQL框架,处理方法包括提示词构建/参数微调/输出校准

👇Rock: Cleaning Data by Embedding ML in Logic Rules

🏛机构:关河智图/深圳计算机研究院

➡️领域:Information systems → Information integration

📚概述:提出一个基于ML的Rock系统,用来清洗Relational Data(就是Relational Database中的数据)

  • Rock的核心:结合机器学习/逻辑推理,通过将ML分类器嵌入为谓词来清洗数据
  • Rock的清洗任务:注意以下任务在Rock中可做到多任务协同处理
    • 实体解析:将不同事物指向(识别并归类为)一个实体
    • 冲突解决:捕捉不同实体之间的语义不一致(比如数据源1说A是20岁/数据源2说A是30岁)并解决
    • 及时性推断:根据数据的属性值,判断这些值是否过期并更新
    • 不完整信息补全
  • Rock的其它功能
    • 自发从数据中发现规则
    • 对大规模数据采取批处理模式
    • 随数据更新而逐步更新

👇Data-Juicer: A One-Stop Data Processing System for Large Language Models

🏛机构:阿里巴巴

➡️领域:Information systems → Information integration

📚概述:提出了一个新的Data-Juicer系统,能够为LLM的训练生成多样化的数据组合(data recipes)

  • 背景:数据与LLM
    • 数据在LLM的重要性:LLM的关键在于使用了庞大的/异构的/高质量的数据
    • 数据组合:从不用来源混合而成的数据,用于训练LLM,决定了LLM的性能
  • 现有的问题:开源工具无法满足多样化数据需求,以及新数据源
  • Data-Juicer能干啥
    • 对于异构且庞大的数据,能高效生成各种数据组合
    • 能更高效评估数据组合对LLMs性能的影响

👇The Hopsworks Feature Store for Machine Learning

🏛机构:Hopsworks(瑞典软件公司)

➡️领域:

  • Information systems → Database design and models
  • Database management system engines.

📚概述:提出了Hopsworks机器学习特征存储(Feature Store)系统

  • 背景:ML系统中的数据管理
    • 含义:是ML-Sys中处理/存储/组织数据,确保数据用于训练推理的过程,是ML-Sys最具挑战的部分
    • 特征存储:管理ML数据的统一平台,贯穿了特征工程/训练/推理
  • Hopsworks特征存储平台:用于管理特征数据,解决了如下问题
    • 特征重用:特征在不同机器学习任务中重复使用
    • 数据转换:组织/执行特征过程的数据转换过程
    • 确保一致性:保证特征工程/训练/推理时,数据是正确且一致的

👇COSMO: A Large-Scale E-commerce Common Sense Knowledge Generation and Serving System at Amazon

🏛机构:Amazon

➡️领域:

  • Computing methodologies → Knowledge representation and reasoning
  • Information systems → Web mining

📚概述:

  • 背景:现有电商图谱(产品属性-用户-商家关系)无法有效发现用户意图/反应用户思维
  • COSMO是个啥:可扩展系统,基于用户行为→构建用户知识图谱→为搜索导航提供服务
  • COSMO构建流程:
    • 知识提取:用LLM从亚马逊大数据中提取初始知识
    • 筛选:引入一个(基于人工标注数据)分类器,判断哪些知识可靠/不可靠并筛选
    • 去噪:采用指令微调,进一步筛掉与人类认知有偏差的知识,最终得到高质量的知识
  • COSMO已经被部署在亚马逊的搜索和导航系统中

2.3. Cloud Storage

👇LETUS: A Log-Structured Efficient Trusted Universal BlockChain Storage

🏛机构:蚂蚁集团

➡️领域:

  • Information systems → Data management systems
  • Security and privacy → Database and storage security

📚概述:提出了LETUS,用于区块链的高效/安全的通用存储系统

  • 背景:区块链爆炸增长,传统两层式存储结构已无法满足需求
  • LETUS系统的主要特点
    • 打破传统两层架构:将认证数据结构(ADS)放到存储引擎,从而优化了存储和IO
    • 提出了新型ADS:结合Merkle树+增量编码(delta-encoding)功能,称作DMM-Tree
    • 改进的索引机制:基于版本的索引,用变种B树来索引ADS生成的数据页
    • 通用性:适用各种区块链
  • LETUS已经在蚂蚁链的商业应用中部署,例如2023年亚运会的NFT项目和数字火炬点燃活动

👇Vortex: A Stream-oriented Storage Engine For Big Data Analytics

🏛机构:Google

➡️领域:Information systems → Stream management

📚概述:提出了Vortex,一个为Google BigQuery构建的实时分析存储引擎,支持对数据流的实时分析

  • 背景:
    • 企业需要处理海量数据,尤其是对于连续数据流(streaming data)
    • 传统数据系统分为流处理引擎/批处理系统,后者在处理实时数据时不佳
  • 关于Vortex
    • 设计:专为数据流设计但也支持批处理,将两种操作集成到了同一个系统中
    • 能力:处理PB级别的数据摄取(持续流入与分析),能以亚秒级响应用户的实时查询

👇Native Cloud Object Storage in Db2 Warehouse: Implementing a Fast and Cost-Efficient Cloud Storage Architecture

🏛机构:IBM

➡️领域:Information systems → Database management system engines

📚概述:提出了Db2 Warehouse存储架构的现代化改造,以适应云环境

  • 背景
    • 传统小块存储:以4KB大小的数据页为存储单位(适合随机存取/块级IO),但在云环境数据库中成本高
    • 云对象存储:在处理大规模数据时,比传统小块存储成本更低
  • 存在的问题:将传统存储 → 迁移 \xrightarrow{迁移} 迁移 云对象存储成本巨大,因此需要新的架构
  • Db2 Warehouse架构的改进
    • 将Log-Structured Merge(LSM)树整合到Db2 Warehouse系统,以管理大规模写入/查询
    • 保留传统数据页格式,避免对传统数据库内核大幅重构

👇ESTELLE: An Efficient and Cost-effective Cloud Log Engine

🏛机构:电子科大/华为

➡️领域:

  • Information systems → DBMS engine architectures
  • Structured text search

📚概述:提出了ESTELLE,转为云环境设计的日志引擎,用于管理大规模的日志数据

  • 背景:
    • 日志的重要性:监控/调试/分析的核心数据
    • 日志的特性:高频写入,低频检索,大量存储;这也是本文模型所要满足的
  • ESTELLE的设计与特点
    • 采用了一种低成本日志索引框架,可根据需求灵活引用索引机制
    • 分离计算和存储,以分离读写操作,从而确保系统能同时查询和写入
    • 设计了一个近乎无锁的写入过程,以适应高频快速写入需求
  • ESTELLE存储与查询优化
    • 采取对象存储技术(以对象为单位存储,包含数据/元数据/主键)
    • 采取Log Bloom Filter和近似倒排索引,根据场景优化查询

👇TimeCloth: Fast Point-in-Time Database Recovery in The Cloud

🏛机构:阿里巴巴

➡️领域:

  • Information systems → Database utilities and tools
  • Point-in-time copies
  • Storage recovery strategies
  • Database recovery

📚概述:提出了TimeCloth,一种专为云环境设计的通用恢复机制,以优化用户触发的数据库恢复

  • 背景:关于用户触发的数据库恢复
    • 特点:相比于因故障触发的恢复,需要更加考量用户的需求,如细粒度(精确程度)/时间点
    • 现有方案:与底层数据库引擎高度集成,难以处理用户触发的恢复
  • TimeCloth的设计:专注实现次线性恢复时间,满足用户对恢复的特定要求
    • 恢复模块:包括了几种机制,高效日志过滤/将非冲突日志并行回放/合并日志以减少工作量
    • 导入模块:实现了透明的基于FUSE的延迟加载机制+智能预取功能
  • TimeCloth已经在阿里云上投入生产

2.4. Cloud Databases

👇Proactive Resume and Pause of Resources for Microsoft Azure SQL Database Serverless

🏛机构:微软

➡️领域:Computer systems organization → Self-organizing autonomic computing

📚概述:提出了一种针对云数据库的主动资源分配基础设施,并用于无服务器的Azure SQL数据库

  • 背景:为云数据库分配资源
    • 反应式:传统的方法,即根据当前需求分配资源
    • 主动式:创新方法,结合当前需求+预期需求来分配资源
  • 本文的模型
    • 要干啥:在资源的高可用性/运营成本的降低/主动策略的计算开销之间找到接近最优的平衡点
    • 干了啥:用于管理数百万个无服务器的Azure SQL数据库

👇Vertically Autoscaling Monolithic Applications with CaaSPER

🏛机构:微软

➡️领域:Information systems → Data management systems

📚概述:提出了CaaSPER垂直自动扩展算法,旨在优化Kubernetes平台上DBaaS的资源管理

  • 一些基本概念
    • Kubernetes平台:管理云应用程序的开源平台,云应用分为有状态(对DB操作有赖于历史数据)/无状态
    • 垂直扩展/水平扩展:增加单个服务器或节点的资源来提升处理能力/增加服务器节点数
      ⚠️Kubernetes通过垂直扩展来应对负载波动
  • 现状问题
    • Kubernetes平台上,客户为应对峰值负载会过度分配资源(负载下降时也没有缩减资源)
    • 现有的垂直自动扩展工具在及时缩减资源或应对CPU限流时表现不佳
  • CaaSPER的提出
    • 是个啥:结合反应式(负载临界时主动调整)+主动式(预测负载变化以主动调整)的垂直自动扩展算法
    • 为了啥:保持最佳的CPU利用率,减少资源浪费
    • 其它特性:允许用户选择能效模式/性能模式,可扩展性(与平台无关)

👇Flux: Decoupled Auto-Scaling for Heterogeneous Query Workload in Alibaba AnalyticDB

🏛机构:阿里巴巴

➡️领域:

  • Information systems → Data warehouses
  • Autonomous database administration

📚概述:提出了Flux,一个专为阿里巴巴AnalyticDB设计的云原生负载自动扩展平台,用于优化异构查询

  • 背景(当前遇到的问题)
  • 云数据仓库需要处理各种异构工作负载,比如在线事务/临时查询/ETL(抽取+转换+加载)
  • 当长/短期查询混合执行时,并发控制+多任务执行会过于复杂
  • 传统自动扩展机制在处理混合工作时,可能导致资源利用不平衡(有些过度分配/有些又不足)
  • 关于Flux
  • 是啥:云原生的自动扩展平台,具有解耦的自动扩展架构,专用于处理异构查询工作负载
  • 架构:
    • 性能优化:将长/短期查询机制分开处理 → \to 消除了传统系统中由于并发控制导致的瓶颈
    • 资源弹性:利用无服务器容器实例来动态分配资源 → \to 资源分配可快速响应负载变化

👇Intelligent Scaling in Amazon Redshift

🏛机构:Amazon

➡️领域:

  • Information systems → DBMS engine architectures
  • Relational parallel and distributed DBMSs
  • Autonomous database administration
  • Online analytical processing engines

📚概述:提出了基于AI的RAIS,用于解决云数据仓库在处理多样化工作负载时的自动扩展问题

  • 背景:阿里巴巴和亚马逊真是神奇的对手,两篇论文的论调都差不多,什么工作负载多样云云
  • 关于RAIS
    • 是啥:一组基于AI驱动的扩展/优化技术
    • 干啥:确保数据仓库能根据负载需求,从垂直/水平扩展(动态调整)资源
    • 咋干:动态(响应)分配资源+自动优化数据仓库规模,这二者都是基于AI所完成的

👇Stage: Query Execution Time Prediction in Amazon Redshift

🏛机构:Amazon/MIT

➡️领域:

  • Information systems → Database performance evaluation;
  • Relational database model

📚概述:这个好理解,就是一种新的查询时间预测器,称之为Stage predictor,应用在Amazon Redshift

  • 背景:
    • 在DBMS中查询时间的准确预测极为关键,关系到优化/资源分配等
    • 现有预测技术存在一些问题,比如Cold Start(无历史数据时表现差),工作负载变化大时预测不准
  • Stage predictor:一个分层执行的时间预测器,结合了以下三种模型
    • 执行时间缓存:缓存过去的执行时间,预测时优先使用历史数据
    • 轻量级本地模型:针对特定数据库实例进行优化,即对每个实例个性化预测
    • 复杂的全局模型:一个可在Redshift实例剑转移的复杂模型,基于不同实例的共享知识预测

2.5. Cloud Database Architecture

👇PolarDB-MP: A Multi-Primary Cloud-Native Database via Disaggregated Shared Memory(最佳论文)

🏛机构:阿里巴巴

➡️领域:Information systems → Relational database model

📚概述:提出了PolarDB-MP,多主结构+云原生数据库,旨在解决主从数据库中写入吞吐量受限问题

  • 关于什么是主从数据库
    • 主数据库:位于核心结点,处理所有写操作,将写操作同步到从数据库
    • 从数据库:位于辅助结点,处理所有读操作,接收来自主数据库的更新从而保持一致
      🌘这种做法的好处在于提高了读性能,坏处在于写必须经过主数据库→限制了写性能
  • 关于PolarDB-MP
    • 是多主数据库,即允许多个结点成为主数据库,分散了写的负载
    • 利用了==分离式共享内存和存储==架构
      • 分离式架构:计算资源与存储资源分开设置在不同结点,二者都可独立扩展
      • 共享内存/存储:多个结点可访问同一组内存/存储资源,本模型实质上每个结点可访问所有数据
    • 允许事务在单个节点上处理
  • 关于PolarDB-MP的核心组件Polar Multi-Primary Fusion Server (PMFS)
    • 设计思想:建立在分离式内存共享上,负责全局事务调节+缓冲区融合,采取了远程直接内存访问
    • 主要功能:事务融合(跨结点事务一致),缓冲区融合(跨结点内存共享),锁融合(跨界点并发控制)
  • 关于PolarDB-MP引入的LLSN设计:为不同结点生成的写前日志,建立一个部分顺序的结构

👇Amazon MemoryDB: A Fast and Durable Memory-First Cloud Database

🏛机构:Amazon

➡️领域:Information systems → Main memory engines

📚概述:提出了基于云内存的数据库服务Amazon MemoryDB for Redis

  • 关于Amazon MemoryDB for Redis的主要特点
    • 内存高性能:MemoryDB将数据直接放在内存中,可以高速读写
    • 高耐久性:除了将数据放在内存中,MemoryDB还会异步地将数据复制到外存中,防丢失
    • 与Redis:MemoryDB基于Redis,兼容Redis(在Redis上运行的app可直接在MemoryDB上运行)
    • 可扩展性:用户可按需(负载增加时)扩展存储/计算资源
    • 高可用性:可多区部署,多区备份

👇Extending Polaris to Support Transactions

🏛机构:微软

➡️领域:Information systems → Data management systems

📚概述:对Polaris系统的增强

  • 关于Polaris:一个云原生的分布式查询处理器
    • 传统的Polaris:仅支持只读事务(查询)
    • 增强的Polaris:支持所有常规事务(插入/删除/更新/加载)
  • 关于日志结构存储
    • 原理:当插入/跟新/删除时,先把变更按顺序写入日志,一段时间后合并执行日志以更改实际数据
    • 不可变性:一旦数据被写入,就不会再发生改变,新的数据不会覆盖而是追加 (避免了频繁磁盘修改)
      🌊增强的Polaris正是采用了日志结构存储,利用其不可变性,大大提高了写入效率
  • 其它Polaris的技术特性
    • 使用快照隔离语义(Snapshot Isolation/一种事务隔离级别)来保持数据一致,支持多表/多语句事务
    • 支持T-SQL,即为微软的Fabric平台提供完整的T-SQL支持

👇BigLake: BigQuery’s Evolution toward a Multi-Cloud Lakehouse

🏛机构:Google

➡️领域:Information systems → Data management systems engines

📚概述:介绍了BigLake的设计及其在Google Cloud的BigQuery中的演变

  • BigQuery是啥:Google Cloud的云原生分布式查询处理器
  • 现今遇到的挑战
    • 数据管理的复杂性:很多企业需要统一管理数据仓库/数据湖,但这又是俩不同结构的系统
      结构简单说明
      数据库用于实时存储、管理结构化数据,支持事务处理。
      数据仓库集成多个数据源,用于大规模数据分析和报表生成。
      数据湖存储原始、未处理的多种格式数据,支持大数据分析和机器学习。
    • 如何整合不同格式的数据和表格
    • 非结构化数据的处理:AI/ML工作负载处理需要处理的正是非结构化的数据,如何让它们高效处理?
    • 多云部署:很多企业会用不同的云平台,如何让多个云平台运行相同服务?
  • BigLake:通过以下创新,是的数据仓库和数据湖得以结合
    • BigLake Tables:使得BigQuery能处理分析不同格式的数据
    • BigLake Object Tables:使BigQuery能处理非结构化数据,从而进行AI/ML处理
    • Omni平台:使得BigQuery可以在非谷歌云平台运行

👇Predicate Caching: Query-Driven Secondary Indexing for Cloud Data Warehouses

🏛机构:Amazon

➡️领域:

  • Information systems → Data scans
  • Online analytical processing engines
  • Data warehouses

📚概述:提出了云数据仓库中提高查询性能的新方法,叫做谓词缓存

  • 背景
    • 云数据仓库(比如Amazon Redshift)已成为查询处理的标准
    • 用户和系统经常发送相同的查询,导致查询性能遇到瓶颈
    • 当前系统的优化有赖于查询结果的缓存,但结果缓存会因为插入/删除/更新而过时
  • 为了解决上述问题,提出了谓词缓存(一种新的二级索引)
    • 是啥:一种用于优化数据库查询性能的二级索引技术
    • 干啥:解决传统缓存方法,在处理重复查询时面临的缓存过时问题
  • 谓词缓存的原理:以如下为例子阐述
    UserID (基础表)NameAge
    1Alice25
    2Bob30
    3Carol35
    4Dave40
    SELECT * FROM Users WHERE Age > 30; -- 查询结果如下
    
    UserID (结果表)NameAge
    3Carol35
    4Dave40
    • 传统的查询:缓存结果表的结果,下次发起相同查询时(若基础表没更新)直接输出缓存
    • 谓词缓存查询:不会缓存结果,转而缓存基础表中满足查询条件的对象的范围,例如
      • 缓存:执行上述查询,缓存会记录范围[35, 40]
      • 更新:当基础表发生改变时,缓存也只要改变谓词范围(相比换掉整个结果表好得多)
      • 再查询:利用缓存的范围信息,快速定位符合的数据
  • 谓词缓存的其它特性
    • 可在查询执行时动态构建(摘要里也没细说)
    • 谓词缓存是轻量级的(还是那句话,比缓存整张表好多了),并且能够在线维护

2.6. Graph Data Management

👇BG3: A Cost Effective and I/O Efficient Graph Database in ByteDance

🏛机构:字节

➡️领域:

  • Information systems → Data management systems
  • Storage management

📚概述:介绍了字节新提出的ByteGraph 3.0(BG3)模型,用来处理大规模图结构数据

  • 背景
    • 字节旗下产品(Tiktok/抖音/头条)每天生成大量图
    • ByteGraph是字节的分布式图数据库,但随负载量增加显得力不从心
  • 关于ByteGraph 3.0:ByteGraph的升级版本,主要结构包含
    • 图存储引擎:内存索引是基于BW-Tree(一种适合图数据存储的树形数据结构),采取云存储
    • 负载感知的空间回收机制:根据负载情况优化存储空间,减少写放大(写入量<<请求空间)
    • 轻量级主从同步机制:保证扩展系统时,多个结点间的数据同步且一致,有利于实时处理

👇PG-Triggers: Triggers for Property Graphs

🏛机构:米兰理工

➡️领域:Triggers(触发器)是数据库的一种自动化操作,即特定事件发生时自动执行一系列预定操作

  • Information systems → Triggers and rules
  • Graph-based database models
  • Theory of computation → Database query languages (principles)

📚概述:提出了PG-Triggers的概念,是一个针对属性图(Property Graphs)添加触发器的方案

  • 回顾一下属性图:一种图数据库模型,用于存储+管理图数据库,由以下三种结构组成
    图数据库结构对应关系数据库结构举例
    NodesEntity学生,老师
    PropertiesAttribute学生(StuID/成绩),老师(Course/TecherID)
    EdgesRelationship学生 ← 授课 \xleftarrow{授课} 授课 老师
  • 背景:
    • 现状:图数据库正在进行标准化工作
    • 作者要干啥呢:为图数据库引入PG-Triggers,以支持类似SQL的触发机制
  • PG-Triggers (说的是写啥,反正在我辽阔的知识盲区中)
    • 定义了触发器的语法和语义
    • Neo4j 实现:将PG-Triggers翻译成Neo4j图数据库中的APOC触发器
      • Neo4j:一个库,用于增强Neo4j的Cypher查询语言的功能
      • APOC触发器:一种触发结构,让Neo4j在数据变化时执行预定操作
    • Memgraph 实现:在这个库也实现了以下,为证明PG-Triggers的机制不仅适用于Neo4j

👇GraphScope Flex: LEGO-like Graph Computing Stack

🏛机构:阿里巴巴

➡️领域:Computer systems organization → n-tier architectures.

📚概述:提出了GraphScope Flex(GraphScope系统的升级)

  • 关于GraphScope
    • 是个啥:用于图遍历+分析+学习的综合解决方案
    • 遇到的困难:不够万能(处理各种编程接口/App/Data时不够多样)
  • 关于GraphScope Flex
    • 目标:解决GraphScope所面对的多样性挑战,权衡资源和效益,提供灵活和用户友好
    • 模块化:采取类似乐高积木的模块化,允许用户根据需求组合定制
  • 结果评估
    • GraphScope Flex在LDBC社交网络基准测试中实现了2.4倍的吞吐量提升
    • GraphScope Flex在Graphalytics基准测试中达到了最高55.7倍的加速比
    • 在实际应用中,GraphScope Flex表现出高达2,400倍的性能提升

👇Bouncer: Admission Control with Response Time Objectives for Low-latency Online Data Systems

🏛机构:领英/微软

➡️领域:

  • General and reference → Empirical studies
  • Information systems → Main memory engines
  • Database utilities and tools

📚概述:提出了Bouncer(一种查询接纳控制策略),在流量激增时确保查询能尽快响应

  • 背景:
    • 现实背景:互联网公司在经历突发流量时,需采取策略让查询满足响应时间目标(SLOs)
    • 查询接纳控制策略:(尤其在流量暴增时)用于控制接受/拒绝用户的查询请求
  • 关于Bouncer策略
    • 是啥:一种查询接纳控制策略
    • 基本原理:低成本估算当前响应时间分布→判断新查询是否能在SLOs内完成→拒绝/接受
    • 其它策略/原理
      • 查询分类:为不同类别的查询设置不同的SLO
      • 早期拒绝策略:帮助客户端迅速作出反应,避免系统浪费资源在无效的查询上
      • 避免饥饿策略:确保某些类别的查询不会被完全拒绝,防止查询类型长期得不到服务
  • 评估与结果
    • Bouncer有效避免了饥饿
    • Bouncer通过较少的总体拒绝次数,达到总体较小的系统开销
      • 高负载下,让已接纳的查询保持接近其SLO
      • 其它查询则不能达到SLO

👇NPA: Improving Large-scale Graph Neural Networks with Non-parametric Attention

🏛机构:北京大学

➡️领域:

  • Information systems → Data mining
  • Computing methodologies → Machine learning

📚概述:设计了非参数化(Non-parametric)GNN与非参数化注意力(PNA)

  • 基础背景:
    • 传统GNN:GNN处理大规模图数据时,可扩展性差
    • 以往研究:通过GNN高采样技术来提交扩展性
    • 现在研究:非参数化GNN训练不依赖大量可训练参数,许多场景下扩展性都很强
  • 另一个背景:非参数化GNN的局限
    • 过平滑问题:由于特征的过度传播,随着传播层数增加,网络性能急剧下降
    • 忽略了特征的影响:非参数化GNN传播时只考虑了图结构,忽略了特征的影响
  • NPA模块的提出
    • 是啥:一个可插拔的模块,兼容现有非参数化GNN,使其同时支持可扩展性+更深架构
    • 原理:引入注意力机制,通过传播时权衡特诊&图结构的重要性,来优化特征传播
  • 验证与实验
    • NPA在七个同构图/五个异构图中表现优异
    • 在大规模数据集ogbn-papers100M上,NPA 实现了最先进的性能
    • 一言蔽之:高性能,高扩展性,支持更深网络结构

3. Demonstrations

3.1. Group A

👇Demonstration of Ver: View Discovery in the Wild

🏛机构:芝加哥大学

➡️领域:Information systems → Information integration

📚概述:展示了Ver1数据发现系统

  • 能干啥:在没提供连接路径信息的大型表格库中,识别出Project-Join视图
  • 解决了啥问题
    • 技术问题:面对大规模表格,要能快速找出视图
    • 认为问题:如何帮用户理解+使用这些视图(因为导航结果复杂性/路径链接多样性等)

👇Comquest: Large Scale User Comment Crawling and Integration

🏛机构:天普大学/IBM

➡️领域:

  • Information systems → Deep web
  • Web crawling
  • Information integration
  • Information systems applications.

📚概述:展示了名为 Comquest 的评论抓取系统,利用Web API来收集大量网站用户评论

  • 问题背景
    • 用户的评论对于下游应用有重要价值
    • 评论数据受限于特定平台,使得数据可用性受限,群体多样化受限
  • Comquest 系统的设计
    • 能干啥:(跨平台)抓取与特定新闻话题或故事相关的评论数据
    • 怎么干:通过深度学习抓取API参数→发送HTTP请求到第三方评论系统的API→收集评论
    • 广泛性:不仅适用于新闻网站,还可与任何用户评论网站配合使用

👇QueryShield: Cryptographically Secure Analytics in the Cloud

🏛机构:波士顿大学

➡️领域:

  • Security and privacy → Cryptography
  • Information systems → Data management systems

📚概述:展示了QueryShield,为云端数据分析提供加密安全服务,以保护隐私+简化多方安全计算

  • QueryShield 的功能
    • 数据分析描述发布:
      • 数据分析师 → QueryShield 发布分析描述 \xrightarrow[\text{QueryShield}]{发布分析描述} 发布分析描述 QueryShield数据所有者
      • 数据所有者在保证隐私前提下,选择参与计算以获利/公益
    • 数据隐私保障:提供多方安全计算技术,为关系数据库/时间序列分析,提供隐私保护
  • QueryShield 的特性:用户友好,封装了多方安全计算(MPC)的复杂计算,非专家也可使用
  • 文中演示的三个场景:四人就业信息调查+信用评分 异常分析+医学场景

👇SIERRA: A Counterfactual Thinking-based Visual Interface for Property Graph Query Construction

🏛机构:南洋理工

➡️领域:

  • Human-centered computing → Visualization systems and tools
  • Information systems → Query languages

📚概述:展示了新型视觉查询界面(VQI) SIERRA,帮不会图查询语言(Cypher)用户构建属性图数据库

  • 背景知识
  • 属性图:一种图数据库模型,用于存储+管理图数据库,由以下三种结构组成
    图数据库结构对应关系数据库结构举例
    NodesEntity学生,老师
    PropertiesAttribute学生(StuID/成绩),老师(Course/TecherID)
    EdgesRelationship学生 ← 授课 \xleftarrow{授课} 授课 老师
  • 视觉查询界面:一种帮助用户建立数据库的图形化界面,而无需编写代码(比如SQL)
  • 背景:
    • 属性图大受欢迎,但特定查询语言构成了门槛→视觉查询界面
    • 现有视觉查询界面虽然易用,但未充分考虑HCI规律和心理学
  • SIERRA 的设计创新:解决了现有视觉查询界面在可用性和美观性上的不足
    • 理论驱动的设计:采用反事实思维,结合HCI/可视化/心理学原则,使得界面直观易用
    • 标签复合图(LCG):引入标签复合图,展示图的结构
    • 视觉形状定义语言:融入在SIERRA的设计里,在查询构建过程中引导用户创建和维护LCG

👇Sawmill: From Logs to Causal Diagnosis of Large Systems

🏛机构: MIT

➡️领域:

  • Software and its engineering → System administration
  • Computing methodologies → Causal reasoning and diagnostics
  • Natural language generation

📚概述:展示了Swamill系统,用来从复杂日志文件中提取因果关系

  • 背景:
    • 因果分析在复杂系统的动态中至关重要
    • 计算机作为复杂系统,很多信息都在半结构化的日志文件中,难以提取因果
  • Sawmill 系统的设计与功能
    • 数据转换与清理:半结构化原始日志数据 → Sawmill \xrightarrow{\text{Sawmill}} Sawmill 适合因果分析的结构化表示形式
    • 可理解的变量命名:系统会自动地,将从日志中提取出的变量,命名为人类可理解的名称
    • 聚合变量生成:Sawmill根据用户选择的因果单元,生成相关的聚合变量
  • Sawmill能干啥
    • 高效地将日志数据转化为可以进行因果推理的模型,并进行探索式因果发现
    • 允许用户通过交互式界面参与,从而使用现有的工具进行因果推理

👇Demonstrating REmatch: A Novel RegEx Engine for Finding all Matches

🏛机构: 牛津大学/智利天主教大学

➡️领域:

  • Theory of computation → Regular languages
  • Information systems → Information retrieval

📚概述:展示了名为REmatch的正则表达式(RegEx)引擎

  • 背景知识
    • 正则表达式:一种用于模式匹配的工具,如以下示例
      (1) 电子邮件的正则匹配表达式^[a-z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,}$
      (2) 123-456-7890类型的表达式被正则表达式\d{3}-\d{3}-\d{4}匹配
      
    • 正则表达式引擎:用于解析+匹配正则表达式,并返回结果
  • REmatch引擎的设计
    • 基于枚举算法理论,找到文档中给定模式的所有匹配项
    • 区别于传统正则引擎,REmatch无需使用复杂非标准操作符,就能找到嵌套和重叠的匹配项
    • 时间复杂度与逐字符输出匹配结果的时间成比例
  • 用户界面:https://rematch.cl
  • 应用场景:DNA序列分析,语言分析,如本文展示例子所示

👇ASQP-RL Demo: Learning Approximation Sets for Exploratory Queries

🏛机构: 宾夕法尼亚大学/Aviv大学

➡️领域:Information systems → Data management systems

📚概述:展示了ASQP-RL系统,用于优化针对大规模外部数据的非聚合查询

  • 背景:处理大规模外部数据库的查询很耗时,尤其当内存有限时
  • ASQP-RL原理
    • 用户发起非聚合查询(SELECT/PROJECT/JOIN)
    • ASQP-RL运行强化学习算法选择外部数据库一个子集
      • 此处强化学习算法的原理:通过局部数据子集来近似全局数据查询的结果
    • ASQP-RL将选择的子集加载到本地,成为近似集
    • ASQP-RL对已经物理化(本地化)的子集执行快速的查询
  • ASQP-RL的优势:
    • 查询时间速快
    • 查询结果准确(虽然只取了子集,但效果和取整体差不多)
    • 针对聚合查询也有良好效果

👇IMBridge: Impedance Mismatch Mitigation between Database Engine and Prediction Query Execution

🏛机构: 华东师大/蚂蚁集团

➡️领域:Information systems → Query optimization

📚概述:展示了IMBridge系统,旨在弥合[数据库引擎 ↔ \leftrightarrow 机器学习预测]间的阻抗不匹配问题

  • 背景知识
    • ML×DB:机器学习模型可用于对存储在数据库的数据执行分析
    • Python UDF:看起来很高级,其实就是Python User-Defined Function的意思
    • 阻抗不匹配:两个系统或组件之间差异过大,导致无法交互,协调效率差
  • 研究背景
    • 阻抗不匹配:
      • 当前数据库在查询引擎中引入Python UDF(预测函数),以在处理查询时执行ML推理
      • 数据库无法理解预测函数语义
    • 推理上下文重复:传统方法中,没调用一次预测函数,都要重新设置上下文环境
    • 不匹配的批量大小:源于数据库操作与预测函数的批量处理之间缺乏协调,影响吞吐
  • IMBridge 系统的解决方案
    • 通过预测函数重写器→消除多余的推理上下文设置
    • 引入了一个解耦的预测操作符→统一数据库与预测函数的批大小

👇ASM in Action: Fast and Practical Learned Cardinality Estimation

🏛机构: 浦项科技大学/洛桑联邦理工大学

➡️领域:Information systems → Query optimization

📚概述:展示了名为ASM的基数估计器

  • 背景
    • 基数估算:用于估计查询结果/中间结果的大小,从而反向优化查询
    • 现有问题:
      • 基于机器学习的基数估算器能够显著提高估算精度
      • 实际部署中,ML无法与数据库查询优化器结合,导致性能不佳
  • ASM的改进
    • 使用自动回归模型,即利用历史数据对当前查询结果进行预测
    • 从数据库中进行适当的采样
    • 利用多维统计合并,在复杂多维数据上提供更高效的基数估算
  • ASM能干啥:
    • 显著提升了基数估算器的效率,尤其是在复杂/多维查询情况下
    • 更容易与现有的数据库查询优化器集成,避免了“估算精度高但执行效率低”的问题

👇The Game Of Recourse: Simulating Algorithmic Recourse over Time to Improve Its Reliability and Fairness

🏛机构: 纽约大学

➡️领域:

  • Information systems → Data management systems;
  • Social and professional topics → Socio-technical systems
  • Human centered computing;

📚概述:讨论了算法反应(Algorithmic Recourse)概念,并提供了一种通过模拟生成相关数据的方法

  • 背景知识
    • 算法反应:为在算法系统中得到不利结果的人提供建议,使其采取行动改变结果
    • 算法反应的目的:发挥人的主观能动性,从而让人对算法有更多控制权
    • 算法反应的困境:缺乏公开可用的数据集
  • 关于The Game Of Recourse
    • 是啥:一个基于代理的模拟
    • 干啥:生成现实的算法反应数据
    • 灵感:来自于康威的“生命游戏”Conway’s Game of Life (笑)
    • 特性:可靠性+公平性
  • 开放访问: https://game-of-recourse.streamlit.app

👇RobOpt: A Tool for Robust Workload Optimization Based on Uncertainty-Aware Machine Learning

🏛机构: 渥太华大学/IBM

➡️领域:

  • Information systems → Query optimization
  • Computing methodologies → Uncertainty quantification
  • Supervised learning by regression

📚概述:展示了RobOpt系统,旨在解决关系型数据库管理系统(R-DBMS)中的查询优化问题

  • 背景知识
    • 优化器:R-DBMS依赖于查询优化器,为从查询选择最优计划,以达到优化目的
    • 优化器原理:依赖于数据库中达到统计信息(数据分布/查询条件)→估计查询的代价和参数
  • 研究背景
    • 传统优化器的缺陷:
      • 传统优化器的参数估计准确性差,执行查询总是非最优
      • 传统优化器基于特定场景
    • 基于机器学习优化器的缺陷:处理不同工作负载时,通常会选择次优方案,从而优化不力
  • RobOpt 的提出
    • 是啥:针对工作负载的鲁棒查询优化器,使得查询计划的选择更加稳健
      • 鲁棒查询优化器:在面对不确定性/系统波动,仍然选出最优计划的优化器
    • 原理
      • 使用数据库的查询日志作为输入
      • 通过日志中的历史数据,训练出一个基于风险感知的学习代价模型
      • 在执行优化器时,考虑风险因素,并采取风险感知的计划策略
      • 可以在工作负载级别/单个查询级别上分析查询样本。都可做出最优选择
  • RobOpt 的优势
    • 鲁棒性:在不确定较大的场景任然保持稳定性+高性能
    • 灵活性:可部署在任何R-DBMS上

👇Demonstrating CAESURA: Language Models as Multi-Modal Query Planners

🏛机构: 达姆城工业大学

➡️领域:Information systems → Semi-structured data

📚概述:展示了CAESURA系统,用于将数据库技术与LLM结合,从而处理多模态数据

  • 背景与背景知识
    • 多模态数据
      • 含义:指包含不同形式的数据,比如表格/文本/图像
      • 应用:在基于LLM的问答系统中,需要enable用户去查询多模态数据
    • RAG(Retrieval Augmented Generation)
      • 是啥:一种扩展LLM的技术
      • 干啥:先从向量数据库中检索相关数据→将数据输入LLM来计算查询结果
      • 弊端:LLM推理成本很高,LLM只能处理有限数据(对大规模RAG束手无策)
  • CAESURA 的提出
    • 是啥:一种数据库优先的多模态问答系统
    • 核心思想:使用 LLM 的推理能力→翻译自然语言查询→生成数据库执行计划
    • 工作流程
      • 用户通过自然语言,提出查询
      • CAESURA 使用 LLM 将查询翻译成数据库可以执行的查询计划
      • 数据库系统(而非LLM)执行查询
    • 优势:
      • 得益于LLM,从而(通过转换自然语言)能处理多模态数据
      • 得益于数据库系统,可以快速处理(而非是让LLM进行高成本的推理)
      • 扩展性好,能够处理大规模的数据集,不想RAG数据一大就阿巴阿巴

👇Demonstration of Udon: Line-by-line Debugging of User-Defined Functions in Data Workflows

🏛机构: 加州大学欧文分校

➡️领域:

  • Information systems → Data management systems
  • Software and its engineering → Software testing and debugging

📚概述:展示了Udon调试器,用于在大数据处理系统中,逐行调试复杂用户自定义函数(UDF)

  • 背景
    • 编程语言的差异:
      • 大数据系统由C/C++/Java编写
      • 用户用Python分析处理,比如机器学习API有99%都是python
      • UDF成为bridge their gap的重要工具
    • UDF调试的挑战:需要协同不同编程语言+大数据规模庞大(开销高)
  • Udon 的解决方案
    • 逐行调试:用户可设断点+逐行单步走,可以在调试UDF时修改代码
    • 单个元组调试:允许UDF在单个Tuple上执行,逐行检查运行情况
    • 调试原语:包含了现代化调试原语,比如设断点+代码检查+动态修改代码

👇UniTS: A Universal Time Series Analysis Framework Powered by Self-Supervised Representation Learning

🏛机构: 哈工大

➡️领域:

  • Computing methodologies → Machine learning
  • Mathematics of computing → Time series analysis

📚概述:展示UniTS框架,用于解决时序分析中的问题,比如部分标注数据/领域漂移

  • 背景问题:时间序列预测的一些挑战
    • 部分标注:即不是所有数据都被完整标注,即不是所有数据都有正确标签
    • 领域漂移:应用于某模型的领域,在新的领域表现不佳
  • UniTS 框架的设计
    • 自监督表征学习:使得模型在标签不完整时,通过学习内在结构+表征,提升分析效果
    • Sklearn 风格 API:尊重用户习惯,开发者可灵活使用该架构
    • 用户友好GUI:高度封装,好看,傻子也能用

👇ChatPipe: Orchestrating Data Preparation Pipelines by Optimizing Human-ChatGPT Interactions

🏛机构: 人大

➡️领域:Information systems → Data analytics

📚概述:展示了ChatPipe新系统,通过与ChatGPT对话来简化机器学习的数据准备过程

  • 关于数据准备
    • 是啥:数据清洗,转换。处理等
    • 将ChatGPT用于数据准备
      • 咋整:根据用户提示生成代码,运行代码来进行数据准备
      • 缺陷:需用户引导ChatGPT因此需具备一定编程基础+生成的代码无法滚回(需从头引导)
  • ChatPipe 系统的设计
    • 套壳ChatGPT:不仅与ChatGPT无缝交互
    • 操作推荐:智能提示用户下一步操作,从而更好的引导ChatGPT
    • 版本控制与滚回:允许用户滚回到以前的版本。无需从头还是引导
  • Demo Session
    • 被集成到了一个Web应用里
    • 在Kaggle数据集上可完成高效准备

3.1. Group B

👇Responsible Model Selection with Virny and VirnyView

🏛机构: 乌克兰天主教大学/纽约大学

➡️领域:

  • Information systems → Data management systems
  • Social and professional topics → Socio-technical systems
  • Human centered computing

📚概述:展示了Virny软件库和与之配套的交互工具VirnyView,用户模型审计+模型选择

  • 模型审计:对机器学习模型进行系统性评估和分析,涵盖准确性/稳定性/鲁棒性
  • 关于Virny软件库
    • 特性:模块化+可扩展性,用户可根据需求扩展其功能
    • 技术手段
      • 具有一套评估机器学习性能的公平性指标,其中包括很多新指标
      • 提供了一套基于多个敏感属性(性别/种族)的分析功能,用于评估在不同人群的表现
  • VirnyView工具:一个配套的交互工具,提供可视化界面,封装了模型审计和选择的过程
  • 开放访问:https://github.com/DataResponsibly/Virny and https://r-ai.co/VirnyView

👇Property Graph Stream Processing In Action with Seraph

🏛机构: 乱七八糟

➡️领域: 乱七八糟

📚概述:介绍了Seraph,一种基于Cypher的查询语言,专注于处理流图数据+连续查询

  • 背景
    • 图数据模型的普及+Cypher查询语言的推广→图数据分析越来越重要
    • 现有的图查询语言(Cypher)在处理流图数据存在局限,如不可连续查询
      • 流图数据,就是实时性高的图数据
  • 关于两种编程语言
    • 声明式(declarative):用户只需描述需求就可得结果,具体每一步怎么做不用管,比如SQL
      SELECT name FROM students WHERE age > 18;
      
    • 命令式(Imperative):需用户明确每一步该怎么做,比如Python
      result = []
      for student in students:
          if student.age > 18:
              result.append(student.name)
      
  • 关于Seraph
    • 核心创新点:基于Cypher,支持本地连续查询,可在流图数据上查询并给出实时结果
    • 特性
      • 是声明式(declarative)语言
      • 向后兼容了Cypher,即Cypher语言也可在Seraph中使用
      • 有严格的形式化定义,即用符号+表达式来描述问题
  • 其它
    • Seraph还提供了一个web用户界面
    • 演示视频:https://riccardotommasini.github.io/seraph/

👇Property Graph Stream Processing In Action with Seraph

🏛机构:智利的一堆大学

➡️领域:

  • Information systems → Data management systems
  • Database query processing
  • Graph-based database models

📚概述:展示了MillenniumDB,一种高性能开源图数据库

  • 背景与问题
    • 知识图谱的数据多样性:包含文本/图像/表格/视频/音频,图数据库还需支持多个共存DB
    • 多种数据具备需要互相操作的需求,因此更需要处理和查询多样化的数据格式
  • MillenniumDB 的特点
    • 支持多模态+多模型:支持属性图模型,语义网络式RDF,以及结合这二者的多层图模型
    • 支持的查询语言:
      • 支持属性图和多层图上的类似 Cypher 的查询语言
      • 支持在 RDF 数据上执行 SPARQL 1.1 查询
    • 优化的查询引擎:
      • 结合了最坏情况最优连接算法+统的关系型查询优化技术
      • 支持多种图特定任务,如路径查找、模式识别和多模态数据的相似性搜索
  • Demo Session:在TelarKG/BibKG/Wikidata等图谱上表现良好

👇IDE: A System for Iterative Mislabel Detection

🏛机构:北理

➡️领域:Information systems → Data cleaning

📚概述:介绍了IDE系统,用于在ML训练种解决标签错误的问题,提高标签的质量以利于训练

  • 背景及背景知识
  • 标签错误:即在数据集种标注错误标签
  • 标签错误的后果:会让DL模型性能雪崩,因为DL赖于高质量标签
  • 获取高质量标签过程需要人工验证,成本极高
  • IDE 系统的介绍
    • 采用一种迭代检测和修复错误标签的方法
      • 每次迭代种,IDE使用早期损失观察+基于影响的验证,来识别错误标签
      • 对于识别出的错误标签,系统随之做出修复
    • 当系统检测到早期损失观察不再有效时,自动终止迭代
    • 对于难以确定标签的实例,IDE会生成伪标签,这也可以提高总体的标签质量

👇A Demonstration of GPTuner: A GPT-Based Manual-Reading Database Tuning System

🏛机构:四川大学

➡️领域:Information systems → Database administration

📚概述:提出了名为GPTuner的DBMS自动调优系统

  • 背景
    • 可配置参数(knobs)对数据库系统影响很大,但人为调整这些参数到最优及其困难
    • 目前已有的机器学习自动调整系统有赖于黑箱优化,忽略了数据库领域知识
  • GPTuner 的提出
    • 核心:GPTuner系统利用LLM,通过阅读数据库文档/手册等,讲黑箱优化与领域知识结合
    • 用户与专家的合作
      • 用户:GPTuner解读参数特性提供定见解,以帮助优化,无需用户深入掌握优化知识
      • 专家:通过自然语言输入调优建议,进一步增强GPTuner功能

👇Demonstrating 𝜆-Tune: Exploiting Large Language Models for Workload-Adaptive Database System Tuning

🏛机构:康奈尔大学

➡️领域:

  • Information systems → Query optimization
  • Autonomous database administration
  • Human-centered computing → Natural language interfaces

📚概述:展示了 λ \lambda λ-Tune模型,可根据工作负载自动化自适应为数据库系统调优

  • 背景
    • 还是knobs的调优,目的在于根据数据库的硬件+查询负载来优化配置
    • 传统调优方法依赖大量计算资源(GPU)和时间
  • 𝜆-Tune 的创新之处
    • 利用LLMs来理解和处理文本数据,不需要额外训练(零次学习)直接生成配置建议
      • 零次学习:模型在没有见过某类训练数据情况下,对这些类别做出正确预测
    • 系统根据DB系统+硬件规格+查询负载,通过自动生成提示,生成适合的调优建议
    • 采取一种工作负载压缩方法,只提取最优洞察力的工作负载特征
  • 𝜆-Tune 的优势
    • 计算资源小:无需耗时的调优与训练(零次学习)
    • 性能提升

👇User-friendly, Interactive, and Configurable Explanations for Graph Neural Networks with Graph Views

🏛机构:浙江大学等

➡️领域:

  • Computing methodologies → Neural networks
  • Information systems → Graph-based database models

📚概述:介绍了名为GVEX的系统,用于为用户提供友好+可交互的GNNs行为解释

  • 问题背景
    • GNN对图数据分析表现优异,但其具有黑箱特性,内部工作原理难以解释
    • 目前对于GNNs的解释方法,仅限于对特定实例,且生成的解释结构过大(难以直观理解)
  • GVEX 系统的创新点
    • 提供了用户友好+交互式的界面,以及个性化的配置(选择感兴趣类别/结点数量)
    • 利用事实+反事实属性,以及这些节点在GNN消息传递的聚合影响,生成高质量解释子图
    • 生成双层解释结构,包含图模式+解释子图

👇OpenIVM: a SQL-to-SQL Compiler for Incremental Computations

🏛机构:荷兰国家数学和计算机科学研究学会/滑铁卢大学

➡️领域:Information systems → Database query processing

📚概述:展示了名为OpenIVM的SQL-to-SQL编译器,专用于增量视图维护(IVM)

  • 增量视图维护(IVM)
    • 作用:用于在基础数据插入/更新/删除时,快速更新数据库中物化视图
      • 物化视图:所预测的查询结果,存储在数据库中,用于查询优化
    • 现有IVM的局限:通常在独立的系统中实现IVM的计算,需要额外计算系统及资源
  • OpenIVM 的创新之处
    • 核心理念:通过现有的SQL查询引擎执行所有IVM,而非额外系统,减少开发/计算成本
    • 支持跨系统:能协调OLTP和OLAP系统工作
      • OLTP(在线事务处理):负责处理DBMS基础的表插入/更新/删除
      • OLAP(在线分析处理):存储和维护物化视图
      • 二者协调的方式:OLTP将基础操作处理后,通过SQL传递给OLAP后续处理
  • 技术实现
    • SQL编译器:
      • OpenIVM将视图定义编译为SQL
      • OpenIVM根据数据库的基础表变化,增量地更新物化视图 (基于DBSP增量计算原理)
    • DuckDB 的集成
      • DuckDB:一个轻量级数据库管理系统
      • OpenIVM用DuckDB来编译/解析/转换/优化物化视图维护的逻辑
  • Demo Session
    • OpenIVM作为DuckDB的一个扩展模块,给 DuckDB 添加 IVM 功能
    • OpenIVM 在跨系统 IVM 中应用
      • PostgreSQL 处理基础表的更新操作
      • DuckDB 用于存储和维护这些表的物化视图

👇Building Reactive Large Language Model Pipelines with Motion

🏛机构:UC Berkeley

➡️领域:

  • Information systems → Data management systems
  • Computing methodologies → Artificial intelligence

📚概述:介绍了Motion,一共用户构建和执行反应式LLM管道的Python框架

  • 背景
    • LLM依赖于提示词,要求提示词有详细信息+丰富上下文,才能高效优化LLM
    • 反应式LLM管道,指通过引入新信息(用户反馈/历史输入输出),而动态改进提示词
  • Motion 框架的功能
    • 提供了一共Python框架,方便开发者创建+运行反应式LLM管道
    • 使用了一种弱一致性模型,即牺牲一定实时性,来减少用户响应延迟

👇Demonstrating Nexus for Correlation Discovery over Collections of Spatio-Temporal Tabular Data

🏛机构:芝加哥大学

➡️领域:

  • Information systems → Information integration
  • Specialized information retrieval

📚概述:介绍了Nexus系统,帮助用户从观察数据中获取因果关系

  • 背景知识
    • 观察数据:真实世界中采集的最原始数据
    • 因果分析的重要性:能为更好的决策提供依据
    • 因果分析的策略:先过识别数据中的相关性间接识别因果 (直接识别因果过于困难)
  • Nexus 系统的功能
    • 将不同时空范围内的表格数据对其,降低分散/复杂数据的分析成本
    • 有效处理数据集中可能存在的缺失值
    • 识别那些可能与因果关系有关的“有趣”相关性

👇Plutus: Understanding Data Distribution Tailoring for Machine Learning

🏛机构:美国罗切斯特大学/柏林工业大学

➡️领域:

  • Information systems → Information integration
  • Computing methodologies → Machine learning

📚概述:介绍了Plutus工具,用于HCI+模型感知数据获取,集成在SystemDB中

  • 背景知识
    • 出现的问题:ML模型有时候在整个数据集上表现不错,但在特定数据切片上表现差
      • 数据切片:数据中某些 特定的组合,比如具有特定特征(年龄/性别)的一部分
    • 表现变差的原因在于:切片的数据不够多/质量差
    • 解决办法:定位让模型表现不好的那部分数据切片,获取更多那部分数据
  • 关于获取新数据的挑战
    • 传统的众包方法(crowdsourcing):即从大量个人那里获得数据,但是太贵/效率太低
    • 外部数据源:从现有外部数据(Data Lake / Data Market)获得数据,更廉价
  • Plutus的设计
    • 是个啥:一个工具,用于协助人机交互过程,根据机器学习模型需求,智能获取数据
    • 啥特点:集成在SystemDB中+支持从数据调试到数据获取的完整生命周期
    • 原理:
      • 让用户追踪模型表现不佳的具体数据片段
      • 识别出有问题片段后,连接外部数据源
      • 与外部数据源交互,从而补充/修补有问题数据
  • 应用场景:Plutus 可以应用于任何需要提升模型表现的场景

👇Multi-Backend Zonal Statistics Execution with Raven

🏛机构:柏林工业大学

➡️领域:

  • Information systems → Spatial-temporal systems
  • Applied computing → Earth and atmospheric sciences

📚概述:展示了Raven,一个区域统计的框架,用于管理遥感卫星激增的数据

  • 背景:
    • 大量遥感数据,对气候监测/灾害管理很有用
    • 处理这些数据,需要通过区域统计,汇集感兴趣区域内的像素数据
  • 现有问题:
    • 存在多种空间系统,及其区域统计操作
    • 他们之间接口/架构/算法差异太大
  • Raven的解决方案
    • 提供了统一接口,简化了不同系统的协作使用
    • 支持多后端执行环境,使用户可以轻松在不同系统间进行基准测试和比较
    • 包含领域特定的Declarative语言+优化技术

👇ShiftScope: Adapting Visualization Recommendations to Users’ Dynamic Data Focus

🏛机构:Oregon State University

➡️领域:Human-centered computing → Visualization toolkits

📚概述:介绍了ShiftScope,一个动态可视化交互系统,用于推荐个性化数据

  • 背景问题
    • 可视化推荐系统,帮助用户在数据探索过程发现重要简介
    • 但随用户对数据理解加深目标有变,现有系统难以适应,导致推荐不再相关
  • ShiftScope的解决方案
    • 引入一个互动系统,追踪用户对数据的认知变化
    • 采用双智能体强化学习框架
      • 一个智能体,负责适应用户数据焦点的变化
      • 另一智能体,推荐满足用户当前/未来探索需求的最佳可视化

👇Demonstration of ElasticNotebook: Migrating Live Computational Notebook States

🏛机构:伊利诺伊大学槟城分校

➡️领域:

  • Information systems → Computing platforms
  • Data replication tools

📚概述:介绍了ElasticNotebook,解决当前Jupyter Notebook中会话状态不可保存的问题

  • 当前Jupyter Notebook的弊端:
    • 会话结束后(如开始运行一段Python),用户定义的变量/机器学习模型会丢失
    • 当前笔记本无法有效的持久化会话状态
  • ElasticNotebook的解决方案
    • 提供绘画状态实时迁移,用户可以计算检查点/恢复来保存并恢复会话状态
    • 前端:允许用户配置定期创建会话状态的检查点
    • 后端:使用轻量级监控技术,可以高效复制会话状态

4. Panels

👇The Future of Graph Analytics

🏛机构:乱七八糟

➡️领域:乱七八糟

📚概述:讨论了近年来图技术在工业和学术界的发展,以及未来图分析系统可能面临的挑战

  • 背景与现状
    • 过去20年,图数据在工业界需求暴增,在学术界有关图处理也取得进展
    • 图查询语言也在不断演变
  • 讨论围绕以下问题展开
    • 是否需要更表达力强的语言和库来分析图中的关系
    • 是否需要新的混合OLTP/OLAP架构来提升性能和扩展性
    • 用户对图分析工作负载和基准的期望是什么
    • 图机器学习将如何影响图分析系统
    • 如何让图分析系统适应图形数据的动态变化

👇The Future of Graph Analytics

🏛机构:微软

📚概述:讨论了DBMS从本地到公有云的迁移,及这种迁移对系统中ML应用的影响

  • 背景
    • DBMS转变:
      • 数据库管理逐渐向公有云转移,数据库开发者变成了操作者
      • 使得我们可以通过遥测反馈循环来进行系统的整体优化
    • ML for Systems 的兴起:通过利用数据反馈,机器学习被广泛用于优化系统性能和管理
    • LLM的影响:LLM已经成为数据库系统优化中的一个有趣元素
  • 讨论的主题
    • ML for Systems 的实际应用鲁棒性如何
    • 大语言模型在系统优化中能起到什么作用
    • 涉及具体的工程考虑和开放性的未来行业发展问题

5. Tutorials

👇Demystifying Data Management for Large Language Models

🏛机构:卡内基梅隆大学/北京大学

➡️领域:

  • Information systems → Data management systems
  • Information systems applications
  • Computing methodologies → Machine learning
  • Artificial intelligence
  • Distributed computing methodologies

📚概述:关于LLMs时代数据管理的教程,讨论了开发+部署LLM过程中数据管理方面的挑战

  • 背景:LLMs在训练和部署过程中需要管理大量数据,使得数据管理至关重要
  • 教程内容
    • 如何在 LLM 的开发和部署阶段管理知识和参数数据
    • 强调了在数据管理中如何平衡效率与有效性

👇SmartNICs in the Cloud: The Why, What and How of In-network Processing for Data-Intensive Applications

🏛机构:达姆城工业大学

➡️领域:

  • Hardware → Networking hardware
  • Networks → Programmable networks
  • Information systems → Database query processing

📚概述:讨论了数据中心/云计算中,资源分离/智能网口卡(SmartNICs)/智能交换机的作用

  • 关于资源分离
    • 是啥:在云计算系统中,将CPU/内存独立为不同部分
      • 分离任务:将传统的计算资源(CPU/内存/存储)独立出来
    • 好处:enable了良好的可扩展性,提高了资源利用率
    • 坏处:增大了网络的处理和开销成本
  • 关于智能硬件
    • 有啥:智能网络接口卡(SmartNICs)+智能交换机(Smart Switches)等,作为可编程硬件
    • 能干啥:
      • 在网络层中:执行云系统中的分离任务,以降低开销
      • 在应用层中:执行更高级的操作,比如SQL查询/机器学习流水
  • Tutorial内容
    • 讲解SmartNICs的工作原理
    • 探讨如何最佳利用这些智能硬件

👇Learned Query Optimizer: What is New and What is Next

🏛机构:阿里巴巴

➡️领域:Information systems → Data management systems

📚概述:讨论了学习型查询优化器,即如何将机器学习应用于数据库的查询优化

  • 背景:机器学习应用于查询,体现出了优越性,具备广泛实验依据
  • Tutorial内容
    • 将用于查询优化的机器学习组件分类,分别介绍其代表性方法
    • 展示一些基准测试的结果和原型应用
    • 展示了一个前沿系统,通过逐步指导,降低开发和部署学习型算法的难度
  • 未来方向:文中说的一塌糊涂,我也不好总结了

👇Distributed Transaction Processing in Untrusted Environments

🏛机构:美国一堆无关紧要的大学

➡️领域:

  • Information systems → Distributed database transactions
  • Computer systems organization → Fault-tolerant network topologies
  • Networks → Network protocol design

📚概述:为开发者提供一个系统化的框架来分析拜占庭容错协议,便于选择和使用

  • 关于拜占庭容错协议(BFT)
    • 是啥:用于分布式系统(如去中心化的数据管理系统)中的共识机制
    • 干啥:解决系统中可能存在的恶意节点故障节点的问题
    • 原理:当系统中某一结点出现不可靠行为后,仍能让诚实结点就系统状态达成一致
  • 背景:BFT协议的快速发展,使选择合适的协议变得困难,开发者难以弄清哪种协议最适合
  • Tutorial内容
    • 介绍了一个设计空间,即协议设计时各种设计因素和选项,比如
      • 基础设施设置,网络环境/结点分布/拓扑结构
      • 通信方式,比如广播/流量控制
      • 社会选择属性,比如公平性等
    • 介绍了设计权衡(如下),帮助开发者理解各协议的差异
      • 性能 vs. 可靠性
      • 公平性 vs. 效率
      • 通信开销 vs. 扩展性

👇Responsible Sharing of Spatiotemporal Data

🏛机构:芝加哥大学/俄亥俄州立大学

➡️领域:

  • Information systems → Data exchange
  • Spatial-temporal systems

📚概述:讨论了时空数据共享中的挑战和解决方案,尤其注重保护隐私

  • 时空数据:带有时间和空间维度的数据,比如某事某地的气象数据
  • 背景
    • 越累越多的应用场景有赖于时空数据,比如自动驾驶
    • 涉及到时空数据共享,需要有新的隐私标准+机器学习技术的融合
  • 设计的挑战
    • 时空数据设计隐私,比如个人的位置/时间等
    • 如何提高数据使用价值同时,严格执行隐私保护措施?
  • 如何解决挑战
    • 现代数据共享机制
      • 让数据相关方设定精确的数据使用共享条款
      • 强大的数据基础设施来保障数据安全
    • 隐私和分析的平衡:即确保隐私合规的同时,实现数据的有效利用

👇Querying Graph Databases at Scale

🏛机构:智利大学/智利天主教大学

➡️领域:

  • Information systems → Query languages for non-relational engines
  • Graph-based database models

📚概述:关于图数据库查询算法和数据结构的教程,重点关注可以在现实世界知识图谱扩展的算法

  • Part1
    • 介绍图数据库,在查询知识图谱具有优势
      • 知识图谱:将信息以图形式结构化表示的模型
    • 介绍图数据模型和不同的查询语言
  • Part2:讨论如何高效评估图模式查询
    • 引入了最坏情况下最优的连接技术,将其与传统连接算法对比
  • Part3:
    • 介绍如何高效评估路径查询
    • 如何构建紧凑的表示,来处理指数暴增的路径集合
  • Part4:介绍压缩数据结构的最新进展

👇Cognitive Psychology Meets Data Management: State of the Art and Future Directions

🏛机构:南洋理工

➡️领域:

  • Information systems → Query languages for non-relational engines
  • Graph-based database models

📚概述:讨论了引入认知心理学理论来改进DBMS,以追求以人为中心的设计

  • 问题背景:数据库系统中,数据定义/数据库操作语言(SQL)是给人设计的,需要追求以人为中心
  • 认知心理学
    • 研究人类如何思考和处理信息
    • 文章提出,通过结合认知心理学理论,可以优化 DBMS 的设计,提高人机交互效率
  • 然后就是回顾过去技术+未来研究方向了,瞎几把鬼扯了一堆,我都感到尴尬

👇Vector Database Management Techniques and Systems

🏛机构:北京大学/普渡大学

➡️领域:

  • Information systems → Query languages for non-relational engines
  • Graph-based database models

📚概述:讨论了特征向量数据库管理系统(VDBMSs)

  • 特征向量数据库管理系统 (Vector Database Management Systems)
    • 是啥:专门设计用于存储+管理+查询特征向量的DBMS
    • 特征向量:用于在ML/DL中表示数据对象(图像/文本/高维数据)
  • 关于特征向量的特点(挑战)
    • 语义相似性,需基于相似性来进行比较,在数据库中不(像传统数据一样)可精确匹配
    • 向量的数据规模巨大,储存和比较昂贵
    • 缺乏可索引结构
    • 有时需混合查询(例如数值+特征向量一起查询)
  • VDBMSs的关键技术议题
    • 查询处理:如何衡量向量间的相似性(相似性评分)+向量查询的类型+查询接口
    • 存储索引:向量压缩和基于磁盘的索引
    • 查询优化和执行:比如混合查询处理,硬件加速,分布式搜索

👇An Overview of Continuous Querying in (Modern) Data Systems

🏛机构:里昂第一大学

➡️领域:乱七八糟

📚概述:介绍了连续查询(aka常驻查询/查询流)的概念及发展

  • 概念的起源
    • 1992年由 Terry 等人提出
    • 旨在处理随时间变化的数据,持续监控和处理数据流
  • 早期发展:
    • 应用在关系模型上,通过代数扩展/演算/语义来表达
    • 查询的语义和应用集中于传统的DBMS
  • 最近的进展
    • 流数据库(Streaming Databases, SDS)显著发展,支持处理实时数据流
    • 连续查询扩展到了图数据库(Graph DBMS),知识图谱等
      • 比如流图(Streaming Graphs)的连续处理技术

👇SIMDified Data Processing - Foundations, Abstraction, and Advanced Techniques

🏛机构:德累斯顿工业大学

➡️领域:

  • Computer systems organization → Single instruction, multiple data
  • Information systems → Database query processing
  • Main memory engines

📚概述:介绍了如何利用**单指令多数据(ISMD)**技术,来加速DBMS的查询执行

  • 第一部分
    • 解释了SIMD是啥:一种并行计算技术,让一个CPU同时处理对多个数据元素执行相同操作
    • 解释了SIMD的引入背景
    • 解释了SIMD的传统应用,如何加速查询处理
  • 第二部分
    • SIMD硬件发展
    • 展示了,如何使用统一的抽象层来处理不同处理器的 SIMD 扩展
  • 第三部分:介绍了应对未来挑战的高级技术
    • 对于更宽和灵活大小的 SIMD 寄存器的处理方法

👇Machine Learning for Databases: Foundations, Paradigms, and Open problems

🏛机构:南洋理工

➡️领域:Information systems → Data management systems

📚概述:介绍了机器学习用于数据库(ML4DB)领域,讨论了最新进展/挑战

  • 介绍ML4DB基础与应用:
    • ML可为DB提升性能,提供新的可能性
  • 介绍两种主要应用范式
    • 机器学习模型直接替代现有的数据库组件 (如查询优化器/索引系统)
    • 利用机器学习增强传统数据库组件 (更为常见)
  • ML4DB目前主要的挑战
    • 如何在数据库中高效地集成和运行机器学习模型
    • 数据漂移问题,即数据库中数据的模式随时间变化,而导致模型性能下降

👇Applications and Computation of the Shapley Value in Databases and Machine Learning

🏛机构:Simon Fraser University / 杜克大学

➡️领域:

  • Information systems → Data management systems
  • Computing methodologies → Machine learning

📚概述:围绕Shapley值的应用和计算问题,介绍其在数据库/机器学习领域的作用

  • 关于Shapley是什么
    • 源于博弈论:旨在通过公平分配各个参与者的贡献,来解决分配问题
    • 很难计算:源于其组合性质,被证明为#P-hard问题
  • Shapley的应用与挑战
    • 近年来在机器学习/数据库广泛使用,比如解释机器学习模型输出/评估特征贡献
    • 有很多研究致力于高效Shapley值计算,比如在特定场景寻求替代
  • 本论文:从算法机制和应用假设的角度来综述Shapley值的应用及其计算方法
    • 介绍Shapley值的基本概念+在数据库和机器学习中的广泛应用
    • 讨论Shapley值计算的挑战,比如一些前沿的快速计算+近似计算
    • 探索了在特定应用背景下的替代解决方案

👇Beyond Bloom: A Tutorial on Future Feature-Rich Filters

🏛机构:乱七八糟

➡️领域:

  • Theory of computation → Data structures design and analysis
  • Bloom filters and hashing

📚概述:讨论了过滤器的重要性/现状,以及在数据密集型的新发展

  • 过滤器的概念:
    • 是什么:存储数据集合的“近似表示”来节省内存空间
      • “近似表示”意味着,过滤器判断一个元素是否属于集合时,只能做近似(可能返回假阳性)
    • 比如:Bloom过滤器/商过滤器/Cuckoo过滤器
    • 用途:快速判断元素是否属于一个集合,在处理密集型数据是减少储存和计算量
      • 应用场景有:数据库/存储引擎/计算生物学/网安
  • 过滤器的进展与限制
    • 进展:开发出了具有更好性能和更多特性的过滤器,优化了数据结构在不同场景的表现
    • 限制:现有设计只能克服一些局限,却往往牺牲了效率
  • Tutorial
    • 帮助数据库社区了解过滤器理论和实践的最新进展
    • 展示使用现代过滤器API重新设计应用的真实案例
    • 讨论未解决的研究问题

6. Workshop Summaries

👇International Workshop on Data Management on New Hardware (DaMoN)

🏛机构:达姆施塔特工业大学/MIT

➡️领域:

  • Information systems → Data management systems
  • Computer systems organization → Architectures

📚概述:

  • 背景:新硬件(多核CPU/GPU)的发展
  • 困难:传统数据库架构难以适配新硬件,导致计算性能/扩展性不佳
  • 研讨会结论:跨学科合作,重新设计数据库算法+架构

👇Second Workshop on Simplicity in Management of Data (SiMoD)

🏛机构:甲骨文/Simon Fraser University

➡️领域:Information systems → Data management systems

📚概述:

  • 背景 :现代数据库系统太复杂
  • 问题:复杂设计尽管功能强大,但维护性差,实际应用中难以不出错
  • 研讨会结论:应该提出简单且有效的查询优化/存储设计/数据库

👇Seventh International Workshop on Exploiting Artificial Intelligence Techniques for Data Management (aiDM)

🏛机构:乱七八糟,但居然有墨尔本大学的Renata,我的恩师哈哈哈

➡️领域:

  • Information systems → Database management system engines
  • Computing methodologies → Artificial intelligence

📚概述:

  • 背景 :AI技术被广泛应用于处理多种数据类型并优化数据管理系统
  • 问题:当前数据库只要用来存储+检索,未能充分利用AI技术就行深层次优化
  • 研讨会:讨论了查询优化/自动调优/自主数据库等等与AI的集成

👇Eighth Workshop on Data Management for End-to-End Machine Learning (DEEM)

🏛机构:UC Berkeley / 微软

📚概述:

  • 背景 :机器学习应用中数据管理日益复杂,尤其是ML流水中的大规模数管理
  • 问题:
    • 数据预处理+模型选择+部署等步骤复杂
    • 需要支持多样化用户群体
    • 涉及人机交互/合规性等问题
  • 研讨会:如何通过AI优化数据管理+ML流水+隐私保护+数据清洗+多模态数据管理等

👇GRADES-NDA’24: 7th Joint Workshop on Graph Data Management Experiences & Systems (GRADES) and Network Data Analytics (NDA)

🏛机构:乱七八糟

➡️领域:Information systems → Graph-based database models

📚概述:

  • 背景 :
    • 网络结构化数据在多个领域广泛应用
    • 图数据管理和分析变得越来越重要
  • 问题:处理大规模图数据时,数据异质性、动态变化和质量低下的问题很常见
  • 研讨会:讨论了图查询语言+动态图管理+异构网络上的机器学习等

👇Fourth International Workshop on Big Data in Emergent Distributed Environments (BiDEDE)

🏛机构:乱七八糟

➡️领域:Information systems → Data management systems

📚概述:

  • 背景 :新型分布式环境(边缘计算/无服务器计算),为处理大规模异构数据提供了新方式
  • 问题:新型分布式环境,面临复杂均衡/容错/数据分配等问题和挑战
  • 研讨会:探讨在新型分布式环境中使用AI/数据集成/事务管理等…

👇Eighth Workshop on Human-In-the-Loop Data Analytics (HILDA)

🏛机构:乱七八糟

➡️领域:

  • Information systems → Data management systems
  • Humancentered computing

📚概述:

  • 背景 :关于人与数据交互,应将人类作为数据系统中的核心参与者
  • 问题:传统数据管理系统,忽视了人类认知和时间的限制(以至于让人类认知成为瓶颈)
  • 研讨会:探讨人与LLM交互/数据可视化/数据清理

👇Third International Workshop on Data Systems Education (DataEd’24)

🏛机构:乱七八糟

➡️领域:

  • Information systems → Data management systems
  • Applied computing → Education

📚概述:

  • 背景 :随着数据科学需求的增加,数据系统的教育需求愈大
  • 问题:数据库教育和计算机科学教育社区之间互动较少,难以分享互补的观点和经验
  • 研讨会:探讨数据系统教育的教学实践+课程设计+AI与数据管理结合等

👇First Workshop on Governance, Understanding and Integration of Data for Effective and Responsible AI (GUIDE-AI)

🏛机构:乱七八糟

➡️领域:

  • Information systems → Data management systems
  • Computing methodologies → Artificial intelligence

📚概述:

  • 背景 :数据驱动的自动化系统在高风险应用中广泛部署,数据管理在AI设计中的作用变得关键
  • 问题:现有AI研究集中于算法优化,忽视了数据治理
  • 研讨会:讨论数据治理、透明性、数据质量管理和AI系统的公平性与隐私保护等关键问题

👇First Workshop on Quantum Computing and Quantum-Inspired Technology for Data-Intensive Systems and Applications (Q-Data)

🏛机构:乱七八糟

➡️领域:

  • Information systems → Data management systems
  • Computer systems organization → Quantum computing

📚概述:

  • 背景 :量子计算的发展,使得研究者开始探索其在数据密集系统的潜力
  • 问题:量子计算和传统计算结合的技术复杂性增加
  • 研讨会:探讨量子计算、量子启发式硬件在数据库优化、数据处理系统和自动化数据库中的应用

👇Tenth International Workshop on Testing Database Systems (DBTest)

🏛机构:微软/NUS

➡️领域:

  • Information systems → Database management system engines
  • Software and its engineering → Software testing and debugging

📚概述:

  • 背景 :数据存储量和硬件技术的发展,数据库系统和数据密集型系统的测试需求日益增加
  • 问题:测试和评估数据库系统的复杂性不断增加(云计算,大数据)
  • 研讨会:探讨数据库系统的测试方法、性能评估、可靠性、安全性等问题
14 Continuous obstructed nearest neighbor queries in spatial databases Yunjun Gao, Baihua Zheng Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data In this paper, we study a novel form of continuous nearest neighbor queries in the presence of obstacles, namely continuous obstructed nearest neighbor (CONN) search. It considers the impact of obstacles on the distance between objects, ... 15 Optimizing complex extraction programs over evolving text data Fei Chen, Byron J. Gao, AnHai Doan, Jun Yang, Raghu Ramakrishnan Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data Most information extraction (IE) approaches have considered only static text corpora, over which we apply IE only once. Many real-world text corpora however are dynamic. They evolve over time, and so to keep extracted information up to date we ... 16 Privacy preservation of aggregates in hidden databases: why and how? Arjun Dasgupta, Nan Zhang, Gautam Das, Surajit Chaudhuri Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data Many websites provide form-like interfaces which allow users to execute search queries on the underlying hidden databases. In this paper, we explain the importance of protecting sensitive aggregate information of hidden databases from being ... 17 Efficient approximate entity extraction with edit distance constraints Wei Wang, Chuan Xiao, Xuemin Lin, Chengqi Zhang Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data Named entity recognition aims at extracting named entities from unstructured text. A recent trend of named entity recognition is finding approximate matches in the text with respect to a large dictionary of known entities, as the domain ... 18 Large-scale uncertainty management systems: learning and exploiting your data Shivnath Babu, Sudipto Guha, Kamesh Munagala Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data The database community has made rapid strides in capturing, representing, and querying uncertain data. Probabilistic databases capture the inherent uncertainty in derived tuples as probability estimates. Data acquisition and stream systems can ... 19 Data warehouse technology by infobright Dominik Slezak, Victoria Eastwood Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data We discuss Infobright technology with respect to its main features and architectural differentiators. We introduce the upcoming research and development projects that may be of special interest to the academic and industry communities. ... 20 Detecting and resolving unsound workflow views for correct provenance analysis Peng Sun, Ziyang Liu, Susan B. Davidson, Yi Chen Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data Workflow views abstract groups of tasks in a workflow into high level composite tasks, in order to reuse sub-workflows and facilitate provenance analysis. However, unless a view is carefully designed, it may not preserve the dataflow ... 21 Indexing correlated probabilistic databases Bhargav Kanagal, Amol Deshpande Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data With large amounts of correlated probabilistic data being generated in a wide range of application domains including sensor networks, information extraction, event detection etc., effectively managing and querying them has become an important ... 22 Cross-tier, label-based security enforcement for web applications Brian J. Corcoran, Nikhil Swamy, Michael Hicks Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data This paper presents SELinks, a programming language focused on building secure multi-tier web applications. SELinks provides a uniform programming model, in the style of LINQ and Ruby on Rails, with language syntax for accessing objects ... 23 Exploiting context analysis for combining multiple entity resolution systems Zhaoqi Chen, Dmitri V. Kalashnikov, Sharad Mehrotra Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data Entity Resolution (ER) is an important real world problem that has attracted significant research interest over the past few years. It deals with determining which object descriptions co-refer in a dataset. Due to its practical significance for ... 24 Kernel-based skyline cardinality estimation Zhenjie Zhang, Yin Yang, Ruichu Cai, Dimitris Papadias, Anthony Tung Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data The skyline of a d-dimensional dataset consists of all points not dominated by others. The incorporation of the skyline operator into practical database systems necessitates an efficient and effective cardinality estimation module. ... 25 Scalable skyline computation using object-based space partitioning Shiming Zhang, Nikos Mamoulis, David W. Cheung Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data The skyline operator returns from a set of multi-dimensional objects a subset of superior objects that are not dominated by others. This operation is considered very important in multi-objective analysis of large datasets. Although a large ...
这是前面的13篇论文 1 Keyword search on structured and semi-structured data Yi Chen, Wei Wang, Ziyang Liu, Xuemin Lin Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data 2 Efficient type-ahead search on relational data: a TASTIER approach Guoliang Li, Shengyue Ji, Chen Li, Jianhua Feng 3 FlashLogging: exploiting flash devices for synchronous logging performance Shimin Chen 4 Query processing techniques for solid state drives Dimitris Tsirogiannis, Stavros Harizopoulos, Mehul A. Shah, Janet L. Wiener, Goetz Graefe 5 A revised r*-tree in comparison with related index structures Norbert Beckmann, Bernhard Seeger 6 ZStream: a cost-based query processor for adaptively detecting composite events Yuan Mei, Samuel Madden Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data Composite (or Complex) event processing (CEP) systems search sequences of incoming events for occurrences of user-specified event patterns. Recently, they have gained more attention in a variety of areas due to their powerful and expressive ... 7 A comparison of flexible schemas for software as a service Stefan Aulbach, Dean Jacobs, Alfons Kemper, Michael Seibold Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data A multi-tenant database system for Software as a Service (SaaS) should offer schemas that are flexible in that they can be extended different versions of the application and dynamically modified while the system is on-line. This ... 8 Query optimizers: time to rethink the contract? Surajit Chaudhuri Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data Query Optimization is expected to produce good execution plans for complex queries while taking relatively small optimization time. Moreover, it is expected to pick the execution plans with rather limited knowledge of data and without any ... 9 Keyword search in databases: the power of RDBMS Lu Qin, Jeffrey Xu Yu, Lijun Chang Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data Keyword search in relational databases (RDBs) has been extensively studied recently. A keyword search (or a keyword query) in RDBs is specified by a set of keywords to explore the interconnected tuple structures in an RDB ... 10 ROX: run-time optimization of XQueries Riham Abdel Kader, Peter Boncz, Stefan Manegold, Maurice van Keulen Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data Optimization of complex XQueries combining many XPath steps and joins is currently hindered by the absence of good cardinality estimation and cost models for XQuery. Additionally, the state-of-the-art of even relational query optimization still ... 11 Query by output Quoc Trung Tran, Chee-Yong Chan, Srinivasan Parthasarathy Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data It has recently been asserted that the usability of a database is as important as its capability. Understanding the database schema, the hidden relationships among attributes in the data all play an important role in this context. Subscribing ... 12 Ranking distributed probabilistic data Feifei Li, Ke Yi, Jeffrey Jestes Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data Ranking queries are essential tools to process large amounts of probabilistic data that encode exponentially many possible deterministic instances. In many applications where uncertainty and fuzzy information arise, data are collected from ... 13 Authenticated join processing in outsourced databases Yin Yang, Dimitris Papadias, Stavros Papadopoulos, Panos Kalnis Jun. 2009 Proceedings of the 35th SIGMOD international conference on Management of data Database outsourcing requires that a query server constructs a proof of result correctness, which can be verified by the client using the data owner's signature. Previous authentication techniques deal with range queries on a single relation ...
以前和大家分享过SIGMOD2009的论文,朋友们都很感兴趣,现手里有SIGMOD211的全部论文,再次和大家分享~ 一个包放不下,一共分成了3个包,包含百余篇论文,朋友们可以挑选自己感兴趣的部分下载,我尽量把文章目录写得明白一些。 这是第一部分。 Session 1: Databases on New Hardware LazyFTL: A Page-Level Flash Translation Layer Optimized for NAND Flash Memory (Page 1) Dongzhe Ma (Tsinghua University) Jianhua Feng (Tsinghua University) Guoliang Li (Tsinghua University) Operation-Aware Buffer Management in Flash-Based Systems (Page 13) Yanfei Lv (Peking University) Bin Cui (Peking University) Bingsheng He (Nanyang Technological University) Xuexuan Chen (Peking University) SkimpyStash: RAM Space Skimpy Key-Value Store on Flash-based Storage (Page 25) Biplob Debnath (EMC Corporation) Sudipta Sengupta (Microsoft Research) Jin Li (Microsoft Research) Design and Evaluation of Main Memory Hash Join Algorithms for Multi-Core CPUs (Page 37) Spyros Blanas (University of Wisconsin-Madison) Yinan Li (University of Wisconsin-Madison) Jignesh M. Patel (University of Wisconsin-Madison) (Return to Top) Session 2: Query Processing and Optimization Query Optimization Techniques for Partitioned Tables (Page 49) Herodotos Herodotou (Duke University) Nedyalko Borisov (Duke University) Shivnath Babu (Duke University) CrowdDB: Answering Queries with Crowdsourcing (Page 61) Michael J. Franklin (University of California, Berkeley) Donald Kossmann (ETH Zurich) Tim Kraska (University of California, Berkeley) Sukriti Ramesh (ETH Zurich) Reynold Xin (University of California, Berkeley) Skyline Query Processing Over Joins (Page 73) Akrivi Vlachou (Norwegian University of Science and Technology (NTNU)) Christos Doulkeridis (Norwegian University of Science and Technology (NTNU)) Neoklis Polyzotis (UC Santa Cruz) Efficient Parallel Skyline Processing Using Hyperplane Projections (Page 85) Henning Köhler (The University of Queensland) Jing Yang (Renmin University of China) Xiaofang Zhou (The University of Queensland & Renmin University of China) (Return to Top) Session 3: Schema Mapping and Data Integration Scalable Query Rewriting: A Graph-Based Approach (Page 97) George Konstantinidis (Information Sciences Institute / University of Southern California) José Luis Ambite (Information Sciences Institute / University of Southern California) Automatic Discovery of Attributes in Relational Databases (Page 109) Meihui Zhang (National University of Singapore) Marios Hadjieleftheriou (AT&T Labs - Research) Beng Chin Ooi (National University of Singapore) Cecilia M. Procopiuc (AT&T Labs - Research) Divesh Srivastava (AT&T Labs - Research) Leveraging Query Logs for Schema Mapping Generation in U-MAP (Page 121) Hazem Elmeleegy (AT&T Labs - Research) Ahmed Elmagarmid (Qatar Computing Research Institute, Qatar Foundation) Jaewoo Lee (Purdue University) Designing and Refining Schema Mappings via Data Examples (Page 133) Bogdan Alexe (University of California, Santa Cruz) Balder ten Cate (University of California, Santa Cruz) Phokion G. Kolaitis (University of California, Santa Cruz and IBM Research - Almaden) Wang-Chiew Tan (IBM Research - Almaden and University of California, Santa Cruz) (Return to Top) Session 4: Data on the We Apples and Oranges: A Comparison of RDF Benchmarks and Real RDF Datasets (Page 145) Songyun Duan (IBM Research - T.J. Watson Research Center) Anastasios Kementsietsidis (IBM Research - T.J. Watson Research Center) Kavitha Srinivas (IBM Research - T.J. Watson Research Center) Octavian Udrea (IBM Research - T.J. Watson Research Center) Efficient Query Answering in Probabilistic RDF Graphs (Page 157) Xiang Lian (Hong Kong University of Science and Technology) Lei Chen (Hong Kong University of Science and Technology) Facet Discovery for Structured Web Search: A Query-Log Mining Approach (Page 169) Jeffrey Pound (University of Waterloo) Stelios Paparizos (Microsoft Research) Panayiotis Tsaparas (Microsoft Research) Schema-As-You-Go: On Probabilistic Tagging and Querying of Wide Tables (Page 181) Meiyu Lu (National University of Singapore) Divyakant Agrawal (University of California at Santa Barbara) Bing Tian Dai (National University of Singapore) Anthony K. H. Tung (National University of Singapore) (Return to Top) Session 5: Data Privacy and Security No Free Lunch in Data Privacy (Page 193) Daniel Kifer (Penn State University) Ashwin Machanavajjhala (Yahoo! Research) TrustedDB: A Trusted Hardware Based Database with Privacy and Data Confidentiality (Page 205) Sumeet Bajaj (Stony Brook University) Radu Sion (Stony Brook University) Differentially Private Data Cubes: Optimizing Noise Sources and Consistency (Page 217) Bolin Ding (University of Illinois at Urbana-Champaign) Marianne Winslett (Advanced Digital Sciences Center & University of Illinois at Urbana-Champaign) Jiawei Han (University of Illinois at Urbana-Champaign) Zhenhui Li (University of Illinois at Urbana-Champaign) iReduct: Differential Privacy with Reduced Relative Errors (Page 229) Xiaokui Xiao (Nanyang Technological University) Gabriel Bender (Cornell University) Michael Hay (Cornell University) Johannes Gehrke (Cornell University) (Return to Top) Session 6: Data Consistency and Parallel DB A Latency and Fault-Tolerance Optimizer for Online Parallel Query Plans (Page 241) Prasang Upadhyaya (University of Washington) YongChul Kwon (University of Washington) Magdalena Balazinska (University of Washington) ArrayStore: A Storage Manager for Complex Parallel Array Processing (Page 253) Emad Soroush (University of Washington) Magdalena Balazinska (University of Washington) Daniel Wang (SLAC National Accelerator Laboratory) Fast Checkpoint Recovery Algorithms for Frequently Consistent Applications (Page 265) Tuan Cao (Cornell University) Marcos Vaz Salles (Cornell University) Benjamin Sowell (Cornell University) Yao Yue (Cornell University) Alan Demers (Cornell University) Johannes Gehrke (Cornell University) Walker White (Cornell University) Warding off the Dangers of Data Corruption with Amulet (Page 277) Nedyalko Borisov (Duke University) Shivnath Babu (Duke University) Nagapramod Mandagere (IBM Almaden Research) Sandeep Uttamchandani (IBM Almaden Research) (Return to Top) Session 7: Service Oriented Computing, Data Management in the Cloud Schedule Optimization for Data Processing Flows on the Cloud (Page 289) Herald Kllapi (University of Athens) Eva Sitaridi (University of Athens) Manolis M. Tsangaris (University of Athens) Yannis Ioannidis (University of Athens) Zephyr: Live Migration in Shared Nothing Databases for Elastic Cloud Platforms (Page 301) Aaron J. Elmore (University of California, Santa Barbara) Sudipto Das (University of California, Santa Barbara) Divyakant Agrawal (University of California, Santa Barbara) Amr El Abbadi (University of California, Santa Barbara) Workload-Aware Database Monitoring and Consolidation (Page 313) Carlo Curino (Massachusetts Institute of Technology) Evan P. C. Jones (Massachusetts Institute of Technology) Samuel Madden (Massachusetts Institute of Technology) Hari Balakrishnan (Massachusetts Institute of Technology) Predicting Cost Amortization for Query Services (Page 325) Verena Kantere (Cyprus University of Technology) Debabrata Dash (ArcSight) Georgios Gratsias (ELCA Informatique SA) Anastasia Ailamaki (École Polytechnique Fédérale de Lausanne) Performance Prediction for Concurrent Database Workloads (Page 337) Jennie Duggan (Brown University) Ugur Cetintemel (Brown University) Olga Papaemmanouil (Brandeis University) Eli Upfal (Brown University) (Return to Top) Session 8: Spatial and Temporal Data Management Reverse Spatial and Textual k Nearest Neighbor Search (Page 349) Jiaheng Lu (Renmin University of China) Ying Lu (Renmin University of China) Gao Cong (Nanyang Technological University) Location-Aware Type Ahead Search on Spatial Databases: Semantics and Efficiency (Page 361) Senjuti Basu Roy (University of Texas at Arlington) Kaushik Chakrabarti (Microsoft Research) Collective Spatial Keyword Querying (Page 373) Xin Cao (Nanyang Technological University) Gao Cong (Nanyang Technological University) Christian S. Jensen (Aarhus University) Beng Chin Ooi (National University of Singapore) Finding Semantics in Time Series (Page 385) Peng Wang (Fudan University & Microsoft Research Asia) Haixun Wang (Microsoft Research Asia) Wei Wang (Fudan University) Querying Contract Databases Based on Temporal Behavior (Page 397) Elio Damaggio (University of California, San Diego) Alin Deutsch (University of California, San Diego) Dayou Zhou (University of California, San Diego) (Return to Top) Session 9: Shortest Paths and Sequence Data Neighborhood-Privacy Protected Shortest Distance Computing in Cloud (Page 409) Jun Gao (Peking University) Jeffery Xu Yu (Chinese University of Hong Kong) Ruoming Jin (Kent State University) Jiashuai Zhou (Peking University) Tengjiao Wang (Peking University) Dongqing Yang (Peking University) On k-Skip Shortest Paths (Page 421) Yufei Tao (Chinese University of Hong Kong) Cheng Sheng (Chinese University of Hong Kong) Jian Pei (Simon Fraser University) Finding Shortest Path on Land Surface (Page 433) Lian Liu (The Hong Kong University of Science and Technology) Raymond Chi-Wing Wong (The Hong Kong University of Science and Technology) WHAM: A High-Throughput Sequence Alignment Method (Page 445) Yinan Li (University of Wisconsin-Madison) Allison Terrell (University of Wisconsin-Madison) Jignesh M. Patel (University of Wisconsin-Madison) A New Approach for Processing Ranked Subsequence Matching Based on Ranked Union (Page 457) Wook-Shin Han (Kyungpook National University) Jinsoo Lee (Kyungpook National University) Yang-Sae Moon (Kangwon National University) Seung-won Hwang (Pohang University of Science and Technology) Hwanjo Yu (Pohang University of Science and Technology) (Return to Top) Session 10: Data Provenance, Workflow and Cleaning Interaction Between Record Matching and Data Repairing (Page 469) Wenfei Fan (University of Edinburgh & Harbin Institute of Technology) Jianzhong Li (Harbin Institute of Technology) Shuai Ma (Beihang University) Nan Tang (University of Edinburgh) Wenyuan Yu (University of Edinburgh) We Challenge You to Certify Your Updates (Page 481) Su Chen (National University of Singapore) Xin Luna Dong (AT&T Labs-Research) Laks V.S. Lakshmanan (University of British Columbia) Divesh Srivastava (AT&T Labs-Research) Labeling Recursive Workflow Executions On-the-Fly (Page 493) Zhuowei Bao (University of Pennsylvania) Susan B. Davidson (University of Pennsylvania) Tova Milo (Tel Aviv University) Tracing Data Errors with View-Conditioned Causality (Page 505) Alexandra Meliou (University of Washington) Wolfgang Gatterbauer (University of Washington) Suman Nath (Microsoft Research) Dan Suciu (University of Washington) (Return to Top) Session 11: Information Extraction Hybrid In-Database Inference for Declarative Information Extraction (Page 517) Daisy Zhe Wang (University of California, Berkeley) Michael J. Franklin (University of California, Berkeley) Minos Garofalakis (Technical University of Crete) Joseph M. Hellerstein (University of California, Berkeley) Michael L. Wick (University of Massachusetts, Amherst) Faerie: Efficient Filtering Algorithms for Approximate Dictionary-Based Entity Extraction (Page 529) Guoliang Li (Tsinghua University) Dong Deng (Tsinghua University) Jianhua Feng (Tsinghua University) Joint Unsupervised Structure Discovery and Information Extraction (Page 541) Eli Cortez (Universidade Federal do Amazonas) Daniel Oliveira (Universidade Federal do Amazonas) Altigran S. da Silva (Universidade Federal do Amazonas) Edleno S. de Moura (Universidade Federal do Amazonas) Alberto H. F. Laender (Universidade Federal de Minas Gerais) Attribute Domain Discovery for Hidden Web Databases (Page 553) Xin Jin (George Washington University) Nan Zhang (George Washington University) Gautam Das (University of Texas at Arlington) (Return to Top) Session 12: Keyword Search and Ranked Queries Keyword Search Over Relational Databases: A Metadata Approach (Page 565) Sonia Bergamaschi (University of Modena and Reggio Emilia, Italy) Elton Domnori (University of Modena and Reggio Emilia, Italy) Francesco Guerra (University of Modena and Reggio Emilia, Italy) Raquel Trillo Lado (University of Zaragoza) Yannis Velegrakis (University of Trento) Sharing Work in Keyword Search Over Databases (Page 577) Marie Jacob (University of Pennsylvania) Zachary Ives (University of Pennsylvania)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值