Python数据可视化1.2　数据转换-CSDN博客

1.2　数据转换

现在，我们了解了数据的定义，但问题是：为什么要收集数据？数据对于描述物质或社会现象以及进一步回答这些问题非常有用。出于这个原因，确保数据的无误、精确和完整是很重要的；否则，错误、不精确和不完整的数据将导致响应结果的不精确或不完整。

数据有不同种类，其中包括过去表现数据、实验数据和基准数据。过去表现数据和实验数据当然很容易理解。另一方面，基准数据是用一个测度标准来比较两种不同项目或产品的特征。数据被转换为信息，得到进一步处理，然后用来解答问题。因此，很明显下一步就是转换的实现。

1.2.1　数据转换为信息

根据数据的内容和重要性，数据收集和储存有一些不同的方式。例如，如果数据是关于篮球季后赛的，那么这些数据将储存为文本和视频格式。另一个例子是一个国家所有城市的温度记录，这些数据通过不同形式收集得到。从数据转换为信息包含数据的收集、处理和组织，如下图所示：

收集来的数据需要处理和组织过程，这些数据后续可能没有结构、没有模型或没有模式。然而，该处理过程至少给我们一种从数据中发现问题答案的组织方式。这种处理可以是一种基于篮球员总得分的简单分类，或者根据城市和州名的分类。

从数据到信息的转换也可以不仅仅是分类，比如统计建模或计算算法。将数据转换为信息确实很重要，这样数据可以被查询、访问和操作。海量数据的转换可能包括这样几种处理方法：过滤、聚集、应用相关性、归一化和分类。

1. 数据收集

数据收集是一个耗时的过程。因此，人们正在寻找更好的自动数据采集方法。然而，人工数据收集仍然很常见。如今，数据的自动收集过程用到输入设备，比如传感器。例如，通过传感器检测水下珊瑚礁；农业上用传感器检测土壤性质、控制灌溉和施肥方法是另一个应用领域。

另一种自动收集数据的方法是通过扫描文档和日志文件，这也是一种服务器端数据收集的形式。人工处理包括基于网络且储存于数据库的数据收集方法，这些数据可以转换为信息。现在，基于网络的协作环境正受益于交流改善和数据分享。

传统的可视化和可视化分析工具专门为单个用户、单机可视化应用而设计。将这些工具的功能拓展到支持协作的层面需要一个漫长的过程，才能扩大真实世界中可视化的适用范围和应用领域。

2. 数据预处理

如今，基于数据量、数据来源的多重异质性和数据类型的不同，数据很容易受到噪音和不一致的影响。现有一些数据预处理技术，比如数据清洗、数据集成、数据压缩和数据转换。数据清洗用于数据中的噪音清理和矛盾修正。数据集成将多个数据源的数据合并起来，通常被称为数据仓库。数据压缩可以通过诸如合并、聚集和消除冗余特征等方法减少数据量。数据转换将数据缩放到一个较小的区间，从而提高处理和可视化的精确性和效率。数据的转换周期如下图所示：

异常值检测是非常规数据的识别，这些数据可能不会落入收集数据的预期行为或模式。异常值也称为离群点或噪音；比如信号数据，一个非常规的特别信号被视为噪音。交易数据中的一个离群点是欺诈交易。准确的数据收集对于保持数据完整性必不可少。然而，从另一角度考虑，异常值也非常重要，比如寻找诈骗保险理赔。

3. 数据处理

数据处理是转换过程中的重要一步。当务之急是关注数据质量。依存模型和聚类有助于准备分析数据和更好地理解处理步骤。虽然也有其他处理技术，但是我们在这不做过多赘述，仅以两种最受欢迎的处理方法为例。

依存模型是建模数据以确定表现方式性质和结构的基本原则。该过程寻找数据元素间的关系；比如，百货公司可能收集顾客购买习惯的数据。该过程有助于百货公司减掉频繁购买的信息。

聚类是在数据中发现群组，从某种方式上看，“相似性模式”没有用数据中已知的结构。

4. 组织数据

数据库管理系统允许用户以结构化的形式存储数据。然而，数据库太大而不能存入内存。有以下两种结构化数据的方法：

以结构化的形式将大量数据储存到磁盘中，比如，表、树或图表

为了快速访问，以结构化的形式将数据储存到内存中

数据结构由将数据结构化为可被储存和访问的一系列不同格式构成。常用的数据结构类型有数组、文件、表、数、列表、映射等。任何数据结构都是为特定目的而设计的，通过组织数据来进行数据储存、访问和操作。一种数据结构可能被选择或设计来储存数据，以实现用不同算法更快访问的目的。

经过高效收集、处理和组织所存储的数据，使数据更容易被理解，这也有助于更好地理解数据中蕴含的信息。

5. 获取数据集

针对接触不到组织数据的读者，下面列举出一些丰富的数据集资源：

http://grouplens.org（来自明尼苏达大学）

http://ichart.finance.yahoo.com/table.csv?s=YHOO&c=1962

http://datawrangling.com/some-datasets-available-on-the-web

http://weather-warehouse.com（天气数据）

http://www.bjs.gov/developer/ncvs/（Justice统计局）

http://census.ire.org/data/bulkdata.html（人口普查数据）

http://www.pro-football-reference.com（足球参考）

http://www.basketball-reference.com（篮球参考）

http://www.baseball-reference.com（棒球参考）

http://archive.ics.uci.edu/ml/datasets.html（机器学习）

http://www.pewresearch.org/data/download-datasets/

http://archive.ics.uci.edu/ml/datasets/Heart+Disease（心脏病）

1.2.2　信息转换为知识

信息是可量化的、可测度的、有形式的，可以被访问、生成、存储、分发、搜索、压缩和复制。信息可以通过数量或信息量进行量化。

通过应用离散算法，信息可转换为知识，知识要比信息更可量化。在某些领域，知识持续经历了一个不断发展的周期。当数据发生实时变化时，这种演变过程随之发生。

知识就像是帮助你做面包的面粉和酵母成分的烹饪配方。另一个看待知识的方法是数据和信息的结合，并加入经验和专家意见，以帮助决策。知识不仅仅是过滤或算法的结果。

转换中包括哪些步骤？这种变化如何发生？当然，它本身是不能发生的。尽管信息这个词是基于定义的不同阐释，但是，我们将在计算的范围内进一步探索。

有一个简单的类比用以说明信息和知识之间的区别：一门特定课程的课程材料为你提供有关概念的重要信息，随后老师引导学生通过讨论来理解概念。这有助于学生获得课程知识。类似地，信息转换为知识也需要完成一些工作。下图展示了信息转换为知识的过程：

正如上图所示，信息通过一些离散算法进行合并和运行后，就能转换为知识。需要通过整合信息得到更多的知识。通过这种转换获得的知识有助于回答有关数据或信息的问题，比如，公司在哪个季度销售收益最高？广告拉动销售的贡献有多大？今年发布了多少新产品？

1.2.3　知识转换为观点

在传统的系统中，信息经处理、分析并形成报告。自因特网诞生以来，我们可以获取经过处理的信息，而且社交媒体融合成为一种处理实际问题的新方式。

一些组织机构已开始分析外部数据来获得观点。比如，通过Twitter上消费者的推文完成对用户情绪的测度，以此来追踪他们对产品品牌的意见。在某些情况下，较高比例的用户会在社交媒体上发布新产品的好评，比如一台iPhone或平板电脑。分析工具能够提供该情绪的数据化证据，这就是数据可视化扮演的重要角色。

下面是知识转化为观点的另一个例子。2009年Netflix公司宣布了一场比赛，该比赛基于已有的电影分级，评选用来预测用户对电影评级的最佳协同过滤算法。比赛的获胜者用语用学理论，在预测用户分级方面提高10.05%的正确率，增加了Netflix公司的商业价值。

知识转换为观点是通过如上图所示的协作和分析来实现的。观点意味着看到解决方案，并发现需要做的事情。得到数据和信息很容易，一些组织机构已经知道获取方法，但是得到观点却很难。观点的得出需要新的创造性思维和连点成线的能力。除了应用创造性思维，数据分析和数据可视化在观点得出的过程中也发挥着很大作用。数据可视化被视为艺术和科学的结合。