SIGMOD论文阅读笔记

最新推荐文章于 2024-08-10 07:57:39 发布

Doris404

最新推荐文章于 2024-08-10 07:57:39 发布

阅读量931

点赞数 2

分类专栏：论文阅读文章标签：大数据

本文链接：https://blog.csdn.net/kullollo/article/details/120113258

版权

论文阅读专栏收录该内容

7 篇文章 1 订阅

订阅专栏

本次阅读的6篇论文并非学术论文，而是基于工业实践的论文。因此阅读时更侧重于论文中系统实现情况，实验结果，以及未来可能使用方向等。

ExDRa: Exploratory Data Science on Federated Raw Data
DataPrep.EDA: Task-Centric Exploratory Data Analysis for Statistical Modeling in Python
MetaInsight: Automatic Discovery of Structured Knowledge for Exploratory Data Analysis
An Ecosystem of Applications for Modeling Political Violence
MIDAS: Towards Efficient and Effective Maintenance of Canned Patterns in Visual Graph Query Interfaces
Exploring Ratings in Subjective Databases

ExDRa: Exploratory Data Science on Federated Raw Data

这篇论文首先阐明数据科学是一个开放不成熟的领域，许多问题并未得到很好的解决，许多问题有多种解决思路等待发现。本文提出了ExDRa系统旨在提供一个帮助数据科学家探索数据内在关系的基础工具，这一工具主要针对分布式，异构的，原始的数据源。

INTRODUCTION部分使用具体例子介绍数据科学家目前处理的问题（Example 1 Data Ownership Dilemma）介绍了工业界常见的场景：模型需要方不想给模型训练者数据，但希望模型训练者能基于数据持有方的数据训练模型。由此引出联邦机器学习这一目前业内探讨激烈的术语。USE CASES介绍了数据科学在肥料生产，纸张生产等领域遇到的具体挑战，介绍了ExDRa用于联邦学习的必要性。SYSTEM ARCHITECTRURE中介绍了ExDRa的宏观结构。FEDERATED RUNTIME中具体介绍了ExDRa提供的功能接口。联邦学习等一系列数据处理操作都基于这些提供的功能接口。EXPERIMENTS实验表明ExDRa系统可以加快机器学习的速度。
在这里插入图片描述

DataPrep.EDA: Task-Centric Exploratory Data Analysis for Statistical Modeling in Python

探索性数据分析（Exploratory Data Analysis EDA）是目前数据科学中重要的一环。现有工具pandas+plotting和pandas-profiling各有其弊端，因而缺少有效工具进行EDA。本文提出开源包DataPrep.EDA以解决前两个工具的问题。

INTRODUCTION介绍了pandas+plotting和pandas-profiling，并介绍了DataPrep.EDA与二者的区别。TASK-CENTRIC EDA介绍5个EDA任务在DataPrep.EDA的具体实现。SYSTEM ARCHITECTURE介绍DataPrep.EDA包含3个主要模块：设置管理，计算模块，实现模块。IMPLEMENTATION介绍了使用场景可能遇到的问题，包括Dask的构建，小数据上缓慢，以及数据处理流程具体细节等。EXPEREMENTAL EVALUATION进行2组实验分别证明DataPrep.EDA的性能和用户体验。
在这里插入图片描述

MetaInsight: Automatic Discovery of Structured Knowledge for Exploratory Data Analysis

自动探索性数据分析（Automatic Exploratory Data Analysis EDA）自动将数据转换成特定数据格式，即对非结构化数据进行结构化处理。MetaInsight将这一问题规约成分类问题：即将数据分为普通数据或是离群数据，从而获得结构化数据。

PRELIMINARIES和FORMULATION介绍了问题定义以及涉及到的一些术语。APPROACH介绍MetaInsight3个重要设计：评分函数，挖掘进程和排序算法。其中评分函数用于分类；挖掘进程可以分为：搜索，查询，评价优化4个步骤；排序函数基于总使用评分进行。EVALUATION进行2组实验：一组实验用于检测MetaInsight的性能（5.1）一组实验用于检测用户体验（5.2）。
请添加图片描述

An Ecosystem of Applications for Modeling Political Violence

本文指出conflict researchers目前面临的4个挑战：如何给冲突建模，如何衡量它们，如何处理其时空特征，如何处理潜在的大量信息和解释，并基于这4个挑战提出一个生态工具用以帮助conflict researchers解决这些挑战。

INTRODUCTION具体介绍4个挑战以及现有工具。TOOLS FOR CONFLICT EXPLORATION介绍TwoRavens，Auctus和PODS。CASE STUDIES具体介绍3个案例作为冲突发现生态系统的使用场景。
请添加图片描述

MIDAS: Towards Efficient and Effective Maintenance of Canned Patterns in Visual Graph Query Interfaces

提出MIDAS框架用以高效高性能维护数据库的可能模式。MIDAS采用了一种选择性维护策略，以保证模式覆盖范围的逐步增加，而不会牺牲模式的多样性和认知负载。对真实数据集和可视化图形界面的实验研究表明，与静态GUI相比，MIDAS是有效的。

INTRODUCTION使用2个例子引出canned pattern maintenance (CPM)问题。BACKGROUND介绍有关图的背景知识，包括图拓扑的知识，canned pattern的特征，以及现有解决CPM问题的工具等。THE CPM PROBLEM具体介绍CPM问题的定义，解决此问题的挑战，解决这两个挑战的策略，并引出MIDAS的解决框架，并在MAINTENANCE OF CLUSTERS & CSGS与CANNED PATTERN GENERATION中具体介绍算法1中的具体实现。PERFORMANCE STUDY进行4组实验以检验参数对实验结果的影响，MIDAS的代价，同类工具比较，拓展性实验。RELATED WORK介绍相关工作，CONCLUSION介绍最终结论。
请添加图片描述

Exploring Ratings in Subjective Databases

本文开发用于对象数据挖掘（Subjective Data Exploration SDE)的框架SUBDEX,这一框架能够在一个有指导的多步骤过程中，共同探索项目、人员和人员对项目的意见，其中每个步骤以评级图的形式汇总最有用和最多样化的趋势。

INTRODUCTION使用具体案例介绍SDE。DATA MODEL AND SDE将数据建模成三元组,在此基础上介绍SUBDEX的操作以及rating map。OUR SDE FRAMEWORK介绍SUBDEX的框架之间如何合作实现功能。EXPERIMENTAL STUDY进行2组实验，分别在5.2和5.3介绍。
请添加图片描述