1本用Python将数据分析到极致的书《Python数据处理》

1本用Python将数据分析到极致的书《Python数据处理》

我会经常分享一本书。我分享的书,你看完如果对你有帮助,值得你购买,请到官网购买正版书籍。

声明:我不是卖书的,我搞得是Python技术,文章最后免费为你准备了一些Python资料。

1本用Python将数据分析到极致的书《Python数据处理》

本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据。

本书特色

用传统的电子表格来处理数据不仅效率低下,而且无法处理某些格式的数据,对于混乱或庞大的数据集更是束手无策。本书将教你如何利用语法简单、容易上手的Python轻松处理数据。作者通过循序渐进的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人入胜的故事。学完本书,你的数据处理和分析能力将更上一层楼。

* 快速了解Python基本语法、数据类型和语言概念

* 概述数据的获取与存储方式

* 清洗数据并格式化,以消除数据集中的重复值与错误

* 学习何时对数据进行标准化,何时对数据清理进行测试并将其脚本化

* 使用Scrapy写网络爬虫

* 利用新的Python库和技术对数据集进行探索与分析

* 使用Python解决方案将整个数据处理过程自动化

“如果你一直感觉电子表格(甚至关系型数据库)无法回答你想要提出的问题,或者除这些工具之外你准备进一步学习,那么这本书非常适合你。我一直在等待这本书的出现。”

——Derek Willis,ProPublica新闻应用开发者,OpenElections联合创始人

“所有新手数据科学家、数据工程师或其他技术方面的数据专家都应该读一读这本实践指南。数据处理领域正需要这样一本书,真希望我第一次开始用Python处理数据时就能有它指导。”

——Tyrone Grandison博士,Proficiency Labs Intl. CEO

1本用Python将数据分析到极致的书《Python数据处理》

前言

欢迎打开这本书。在本书中,我们将会让你的数据处理技术更上一层楼,不再只是使用电子表格,而是可以利用 Python 编程语言,将噪声数据轻松快速地转换成可用的报告。 Python 语法简单,上手很快,人人都可以用 Python 编程。

想象一下,你每周都要手动重复同一过程,比如从多个来源复制数据并粘贴到一个电子表格中,用于后续处理。这项任务可能每周都需要花费一两个小时。但当你用脚本把这项任务自动化之后,它可能只需要 30 秒就可以完成!这会节省你的时间,让你做点其他事情,或者把更多的任务自动化。再想象一下,之前你无法处理某种格式的数据,但你现在能对数据进行格式转换,完成之前无法完成的任务。但在完成本书的 Python 练习后,你应该可以更有效地从之前认为不可用的数据(过于混乱,或者数据量过大)中采集信息。

我们将带领你完成数据获取、数据清洗、数据呈现、数据规模化和自动化的过程。我们的目标是教你学会轻松处理数据的方法,这样你就可以花更多的时间专注于内容和分析。我们将克服现有工具的局限,将手动处理过程替换为简洁、易读的 Python 代码。读完这本书后,你能够将数据处理过程自动化,定期执行文件编辑和清洗任务,获取并解析你之前无法获取的数据,还能处理数据量更大的数据集。

采用基于项目的方法,每一章的复杂度会逐渐增加。我们建议你跟随本书的节奏,将书中的方法应用到自己的数据集上。如果你没有一个特定的项目或研究,也可以使用本书线上的样本数据集。

目标读者

本书针对的是那些不想用桌面工具来探索数据处理的人。如果你精于 Excel,想进一步提升数据分析水平,本书将助你一臂之力!如果你之前学过其他语言,想用 Python 学习数据处理,也会发现本书非常有用。

如果你遇到不懂的问题,建议你联系我们,这样我们可以改进书的内容。你也应该使用互联网搜索或在线提问(在线提问有一些方法和技巧,请参考 https://www.propublica.org/nerds/item/how-to-ask-programming-questions)来补充学习。我们在附录 E 中介绍了一些调试的技巧,你可以翻到那里看一下。

不适合阅读本书的读者

本书肯定不适合经验丰富的 Python 程序员,他们已经知道数据处理任务需要用到哪些库和技术。(对于这些人,我们推荐 Wes McKinney 写的《利用 Python 进行数据分析》。)如果你是经验丰富的 Python 开发者,或使用过 Scala、R 等其他具有数据分析能力的语言,本书可能也不适合你。但如果你是经验丰富的 Web 语言开发者,使用的 PHP、JavaScript 等语言本身缺乏数据分析能力,那么本书可以通过数据处理来教你 Python 的知识。

本书结构

本书的结构沿循一般数据分析项目或故事的整个生命周期。首先提出一个问题,然后获取数据、清洗数据、探索数据、传达数据中的发现、扩展到更大的数据集,最后将整个过程自动化。这种方法可以让你从简单的问题逐步过渡到更复杂的问题和研究。我们会先讲传达数据中发现的基本方法,然后再讲数据采集的高级技巧。

如果对某些章节的内容比较熟悉,你也可以将本书当作参考,或者跳过那些章节。但我们建议你大致浏览一下每一章节的内容,确保没有错过新的资源与技术。

什么是数据处理

数据处理是指将杂乱的或未加工的数据源转换成有用的信息。先寻找原始数据源,并判断其价值:这些数据集的数据质量有多好?它们与你的目标是否相关?能否找到更好的数据源?在对数据进行解析与清洗后,数据集变得可用,这时你可以利用工具和方法(如 Python 脚本)来帮你分析数据,并以报告的形式展示结果。这样你可以将无人问津的数据变得清晰可用。

目录

第 1 章 Python 简介阅读第 2 章 Python 基础阅读第 3 章 供机器读取的数据第 4 章 处理 Excel 文件第 5 章 处理 PDF 文件,以及用 Python 解决问题第 6 章 数据获取与存储第 7 章 数据清洗:研究、匹配与格式化第 8 章 数据清洗:标准化和脚本化第 9 章 数据探索和分析第 10 章 展示数据第 11 章 网页抓取:获取并存储网络数据第 12 章 高级网页抓取:屏幕抓取器与爬虫第 13 章 应用编程接口第 14 章 自动化和规模化第 15 章 结论

作者介绍

Jacqueline Kazil,数据科学家,资深软件开发者。活跃于Python软件基金会、PyLadies等社区。曾参与美国总统创新伙伴项目,是美国政府技术组织18F的联合创始人。曾担任《华盛顿邮报》数据记者。

Katharine Jarmul,资深Python开发者,PyLadies联合创始人。喜欢数据分析和获取、网页抓取、教人学习Python以及Unix,期望通过教育和培训来促进Python和其他开源语言的多元化。

写在最后

前几天有私信我要Python的学习资料,我连夜整理了一些有深度的Python教程和参考资料,从入门到高级的都有,文件已经打包好了,正在学习Python的同学可以免费下载学习学习。文件下载方式:点击我的头像,关注后私信回复“资料”即可下载。首先把代码撸起来!首先把代码撸起来!首先把代码撸起来!重要的事说三遍,哈哈。“编程是门手艺活”。什么意思?得练啊。

1本用Python将数据分析到极致的书《Python数据处理》

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值