本次阅读的6篇论文并非学术论文,而是基于工业实践的论文。因此阅读时更侧重于论文中系统实现情况,实验结果,以及未来可能使用方向等。
目录
- ExDRa: Exploratory Data Science on Federated Raw Data
- DataPrep.EDA: Task-Centric Exploratory Data Analysis for Statistical Modeling in Python
- MetaInsight: Automatic Discovery of Structured Knowledge for Exploratory Data Analysis
- An Ecosystem of Applications for Modeling Political Violence
- MIDAS: Towards Efficient and Effective Maintenance of Canned Patterns in Visual Graph Query Interfaces
- Exploring Ratings in Subjective Databases
ExDRa: Exploratory Data Science on Federated Raw Data
这篇论文首先阐明数据科学是一个开放不成熟的领域,许多问题并未得到很好的解决,许多问题有多种解决思路等待发现。本文提出了ExDRa系统旨在提供一个帮助数据科学家探索数据内在关系的基础工具,这一工具主要针对分布式,异构的,原始的数据源。
INTRODUCTION部分使用具体例子介绍数据科学家目前处理的问题(Example 1 Data Ownership Dilemma)介绍了工业界常见的场景:模型需要方不想给模型训练者数据,但希望模型训练者能基于数据持有方的数据训练模型。由此引出联邦机器学习这一目前业内探讨激烈的术语。USE CASES介绍了数据科学在肥料生产,纸张生产等领域遇到的具体挑战,介绍了ExDRa用于联邦学习的必要性。SYSTEM ARCHITECTRURE中介绍了ExDRa的宏观结构。FEDERATED RUNTIME中具体介绍了ExDRa提供的功能接口。联邦学习等一系列数据处理操作都基于这些提供的功能接口。EXPERIMENTS实验表明ExDRa系统可以加快机器学习的速度。
DataPrep.EDA: Task-Centric Exploratory Data Analysis for Statistical Modeling in Python
探索性数据分析(Exploratory Data Analysis EDA)是目前数据科学中重要的一环。现有工具pandas+plotting和pandas-profiling各有其弊端,因而缺少有效工具进行EDA。本文提出开源包DataPrep.EDA以解决前两个工具的问题。
INTRODUCTION介绍了pandas+plotting和pandas-profiling,并介绍了DataPrep.EDA与二者的区别。TASK-CENTRIC EDA介绍5个EDA任务在DataPrep.EDA的具体实现。SYSTEM ARCHITECTURE介绍DataPrep.EDA包含3个主要模块:设置管理,计算模块,实现模块。IMPLEMENTATION介绍了使用场景可能遇到的问题,包括Dask的构建,小数据上缓慢,以及数据处理流程具体细节等。EXPEREMENTAL EVALUATION进行2组实验分别证明DataPrep.EDA的性能和用户体验。
MetaInsight: Automatic Discovery of Structured Knowledge for Exploratory Data Analysis
自动探索性数据分析(Automatic Exploratory Data Analysis EDA)自动将数据转换成特定数据格式,即对非结构化数据进行结构化处理。MetaInsight将这一问题规约成分类问题:即将数据分为普通数据或是离群数据,从而获得结构化数据。
PRELIMINARIES和FORMULATION介绍了问题定义以及涉及到的一些术语。APPROACH介绍MetaInsight3个重要设计:评分函数,挖掘进程和排序算法。其中评分函数用于分类;挖掘进程可以分为:搜索,查询,评价优化4个步骤;排序函数基于总使用评分进行。EVALUATION进行2组实验:一组实验用于检测MetaInsight的性能(5.1)一组实验用于检测用户体验(5.2)。
An Ecosystem of Applications for Modeling Political Violence
本文指出conflict researchers目前面临的4个挑战:如何给冲突建模,如何衡量它们,如何处理其时空特征,如何处理潜在的大量信息和解释,并基于这4个挑战提出一个生态工具用以帮助conflict researchers解决这些挑战。
INTRODUCTION具体介绍4个挑战以及现有工具。TOOLS FOR CONFLICT EXPLORATION介绍TwoRavens,Auctus和PODS。CASE STUDIES具体介绍3个案例作为冲突发现生态系统的使用场景。
MIDAS: Towards Efficient and Effective Maintenance of Canned Patterns in Visual Graph Query Interfaces
提出MIDAS框架用以高效高性能维护数据库的可能模式。MIDAS采用了一种选择性维护策略,以保证模式覆盖范围的逐步增加,而不会牺牲模式的多样性和认知负载。对真实数据集和可视化图形界面的实验研究表明,与静态GUI相比,MIDAS是有效的。
INTRODUCTION使用2个例子引出canned pattern maintenance (CPM)问题。BACKGROUND介绍有关图的背景知识,包括图拓扑的知识,canned pattern的特征,以及现有解决CPM问题的工具等。THE CPM PROBLEM具体介绍CPM问题的定义,解决此问题的挑战,解决这两个挑战的策略,并引出MIDAS的解决框架,并在MAINTENANCE OF CLUSTERS & CSGS与CANNED PATTERN GENERATION中具体介绍算法1中的具体实现。PERFORMANCE STUDY进行4组实验以检验参数对实验结果的影响,MIDAS的代价,同类工具比较,拓展性实验。RELATED WORK介绍相关工作,CONCLUSION介绍最终结论。
Exploring Ratings in Subjective Databases
本文开发用于对象数据挖掘(Subjective Data Exploration SDE)的框架SUBDEX,这一框架能够在一个有指导的多步骤过程中,共同探索项目、人员和人员对项目的意见,其中每个步骤以评级图的形式汇总最有用和最多样化的趋势。
INTRODUCTION使用具体案例介绍SDE。DATA MODEL AND SDE将数据建模成三元组,在此基础上介绍SUBDEX的操作以及rating map。OUR SDE FRAMEWORK介绍SUBDEX的框架之间如何合作实现功能。EXPERIMENTAL STUDY进行2组实验,分别在5.2和5.3介绍。