我会经常分享一本书。我分享的书,你看完如果对你有帮助,值得你购买,请到官网购买正版书籍。
声明:我不是卖书的,我搞得是Python技术,文章最后免费为你准备了一些Python资料。
本书以Python语言讲述数据科学基础知识,涵盖了数据采集、清洗、存储、检索、转换、可视化、高级数据分析(网络分析)、统计和机器学习等内容。具体内容包括:数据科学的Python核心特性,文本数据、数据库、表格形式的数值数据、series和frame、网络数据的使用,数据的绘制,概率与统计,机器学习。
本书特色
- 不同类型文本数据的获取、清洗、组织和可视化
- 如何用NumPy和Pandas模块处理数值数据
- 探索用MySQL和MongoDB配置、填充、查询数据
- 网络创建、度量和分析
- 概率与统计以及机器学习的相关基本概念.
前言
我现在必须给你一个小小的科学指引,来扰乱你的思路。
——英国小说家Marie Corelli
2015年夏天,我在位于美国波士顿的萨福克大学使用Python教授数据科学入门课程,授课对象是一组经过选拔的本科生,本书的创作灵感正来源于这门课程。该课程是两个系列课程中的第一门课程,重点是数据的获取、清洗、组织和可视化,涉及统计学、机器学习和网络分析等相关内容。
数据的处理涉及庞大的体系和众多的Python模块(例如数据库、自然语言处理框架、JSON和HTML解析器,以及高性能数值数据结构,等等)。我很快意识到,不仅是本科生,甚至是经验丰富的专业人士,也很容易被这些浩瀚的知识所淹没。事实上,不得不承认,与我熟悉的领域相比,在进行数据科学和网络分析领域的研究时,我需要花更多时间去使用help()函数和浏览大量Python网络论坛。另外,我有时在课堂上会因为想不起某个函数名或可选参数而尴尬不已。
作为课程的一部分,我针对多类主题编辑了一套极具参考价值的备忘单。这些备忘单最终演变成了这本书。希望本书能够使你从大量函数名和可选参数中解脱出来,专注于数据科学和数据分析本身。
关于本书
本书涵盖了数据采集、清洗、存储、检索、转换、可视化、高级数据分析(网络分析)、统计和机器学习等内容。本书不是数据科学的综述或参考手册,不过你也能在第1章(“什么是数据科学”)找到如何开展数据科学的简要概述。阅读本书需要的先修知识包括数据科学的相关方法、统计学等。
第2章总结了Python数据结构,字符串、文件和与Web相关的函数,正则表达式,以及列表推导式。总结并非用于讲授这些知识,而是供你温习相关知识点。掌握Python对于一个成功的数据科学家而言无疑是非常重要的,你可以找到许多优秀的图书,进一步学习这门语言。
本书的第一部分介绍了如何使用不同类型的文本数据,包括处理结构化和非结构化的文本,使用NumPy和Pandas模块处理数值数据,以及网络分析。还有三章涉及数据分析的三个方面:使用关系型和非关系型数据库、数据可视化以及简单的预测分析。
本书是一本半叙述半参考性的书。你可以直接按顺序阅读,也可以先找出你关心的函数或概念,然后查阅相关的说明和示例。若是按顺序阅读,而你又有一定的Python编程经验,就可以直接跳过第2章(“数据科学的Python核心”)。如果你不打算使用外部数据库(比如MySQL),也可以忽略第4章(“使用数据库”)。最后,如果你对统计学已经有一定了解,那么完全可以跳过第9章(“概率与统计”)的前两个单元,直接阅读第47单元(“以Python的方式完成统计”)。
目录
第 1 章 什么是数据科学阅读第 2 章 数据科学的Python核心第 3 章 使用文本数据第 4 章 使用数据库第 5 章 使用表格形式的数值数据第 6 章 使用series和frame第 7 章 使用网络数据第 8 章 绘图第 9 章 概率与统计第 10 章 机器学习
作者介绍
计算机科学教授,自2001年起一直在萨福克大学任教。研究兴趣包括计算机模拟与建模、网络科学、社交网络分析以及数字人文。拥有莫斯科国立大学物理学硕士学位和纽约州立大学石溪分校计算机科学博士学位。
写在最后
前几天有私信我要Python的学习资料,我连夜整理了一些有深度的Python教程和参考资料,从入门到高级的都有,文件已经打包好了,正在学习Python的同学可以免费下载学习学习。文件下载方式:点击我的头像,关注后私信回复“资料”即可下载。首先把代码撸起来!首先把代码撸起来!首先把代码撸起来!重要的事说三遍,哈哈。“编程是门手艺活”。什么意思?得练啊。