python123csv格式清洗与转换_干净的数据 数据清洗入门与实践

干净的数据 数据清洗入门与实践是一本数据清洗指导学习书籍,由美国的Megan Squie编著,本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程,适合任何一个对数据清洗感兴趣的人阅读。

内容简介数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。

如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么《干净的数据 数据清洗入门与实践》就适合你阅读!

- 理解数据清洗在整个数据科学过程中的作用

- 掌握数据清洗的基础知识,包括文件清洗、数据类型、字符编码等

- 发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能

- 学会常见数据格式的相互转换,如JSON、CSV和一些特殊用途的格式

- 采用三种策略来解析和清洗HTML文件中的数据

- 揭开PDF文档的秘密,提取需要的数据

- 借助一系列解决方案来清洗存放在关系型数据库里的坏数据

- 创建自己的干净数据集,为其打包、添加授权许可并与他人共享

- 使用书中的工具以及Twitter和Stack Overflow数据,完成两个真实的项目

《干净的数据 数据清洗入门与实践》主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。

干净的数据 数据清洗入门与实践章节目录目录

第1 章 为什么需要清洗数据 1

1.1 新视角 1

1.2 数据科学过程 2

1.3 传达数据清洗工作的内容 3

1.4 数据清洗环境 4

1.5 入门示例 5

1.6 小结 9

第2 章 基础知识——格式、 类型与编码 11

2.1 文件格式 11

2.1.1 文本文件与二进制文件 11

2.1.2 常见的文本文件格式 14

2.1.3 分隔格式 14

2.2 归档与压缩 20

2.2.1 归档文件 20

2&#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值