《Python网络爬虫从入门到实践 第2版》前言

本书面向初学者,详细介绍了Python网络爬虫的基础和进阶技术,包括Python入门、网页获取、解析和存储数据,以及Scrapy框架。此外,书中涵盖多线程爬虫、反爬策略、服务器爬虫和分布式爬虫等实战案例,旨在帮助读者通过实践掌握Python爬虫技能。
摘要由CSDN通过智能技术生成

前言

近年来,大数据成为业界与学术界的热门话题之一,数据已经成为每个公司极为重要的资产。互联网上大量的公开数据为个人和公司提供了以往想象不到的可以获取的数据量,而掌握网络爬虫技术可以帮助你获取这些有用的公开数据集。

执笔本书的起因是我打算在知乎上写博客向香港中文大学市场营销学的研究生讲解Python网络爬虫技术,让这些商科学生掌握一些大数据时代重要的技术。因此,本书除了面向技术人员外,还面向不懂编程的“小白”,希望能够将网络爬虫学习的门槛降低,让大家都能享受到使用网络爬虫编程的乐趣。过去的一年中,本书第1版帮助很多读者开启了Python和网络爬虫的世界,因此有幸获得出版社的邀请,在之前版本的基础上进行修改,更新书中的案例以及添加新的内容,形成第2版。

本书所有代码均在Python 3.6中测试通过,并存放在Github和百度网盘上:Github链接为https://github.com/Santostang/PythonScraping;百度网盘链接为https://pan.baidu.com/s/14RA8Srew8tbqVT977JDvNw,提取码为h2kf。为了方便大家练习Python网络爬虫,我专门搭建了一个博客网站用于Python网络爬虫的教学,本书的教学部分全部基于爬取我的个人博客网(www.santostang.com)。一方面,由于这个网站不会更改设计和框架,因此本书的网络爬虫代码可以一直使用;另一方面,由于这是我自己的博客网站,因此可以避免一些法律上的风险。

读者对象

(1)对Python编程和网络爬虫感兴趣的大专院校师生,需要获取数据进行分析;

(2)打算转行或入行爬虫工程师、数据分析师、数据科学家的人士;

(3)需要使用网络爬虫技术自动获取数据分析的各行业人士。

勘误和支持

由于作者水平和能力有限,编写时间仓促,不妥之处在所难免,希望读者批评指正。本书的读者QQ群为798652826,欢迎读者加群交流。另外,也可以到我的博客www.santostang.com反馈意见,欢迎读者和网络爬虫爱好者不吝赐教。

如何阅读本书

本书分为17章。

第1~7章为基础部分,主要介绍Python入门,Python网络爬虫的获取网页、解析网页和存储数据三个流程,以及Scrapy爬虫框架。这部分每一章的最后都有自我实践题,读者可以通过实践题熟悉Python爬虫代码的编写。

第8~13章为进阶部分,主要介绍多线程和多进程爬虫、反爬虫、服务器爬虫和分布式爬虫等进阶爬虫技术,这部分为你在爬虫实践中遇到的问题提供了解决方案。

第14~17章为项目实践部分,每一章包含一个详细的爬虫案例,每个案例都覆盖之前章节的知识,让你在学习Python爬虫后,可以通过在真实网站中练习来消化和吸收Python爬虫的知识。

本书几乎每章都使用案例来学习Python网络爬虫,希望告诉读者“通过实战解决实际问题,才能高效地学习新知识”。手输代码,练习案例,才是学习Python和网络爬虫的有效方法。

致谢

首先感谢卞诚君老师在我写书过程中给予的指导和帮助。没有他的提议,我不会想到将自己的网络爬虫博客整理成一本书出版,更不会有本书的第2版。

从转行数据分析,到申请去康奈尔大学读书,再到回国做数据分析师,我在计算机技术和数据科学的道路上,得到了无数贵人的帮助和提携。首先感谢刘建南教授带我进入了数据挖掘的大门,无私地将数据挖掘、营销知识和经验倾囊相授,您是我的启蒙老师,也是我一生的恩师。

感谢腾讯公司商业分析组和数据服务中心的各位同事,特别感谢我的组长张殿鹏和导师王欢,他们耐心地培养和教导我如何成为一名优秀的数据分析师,让我放手去挑战和尝试不同项目,坚持将数据分析的成果落地。

感谢一路走来,支持我、帮助我的前辈和朋友,包括香港中文大学的教授和朋友——马旭飞教授、李宜威博士、数据科学家周启航、数据分析师赵作栋、数据分析师王礼斌以及好友孙成帅、张蓓等,康奈尔大学的同学——数据科学家汤心韵等、思路富邦有限公司总裁陈智铨、数据科学家吴嘉杰。尤其感谢IBM香港CTO戴剑寒博士、香港中文大学(深圳)校长讲席教授贾建民博士、TalkingData腾云大学执行校长杨慧博士和DaoCloud首席架构师王天青在百忙中热情地为本书写推荐语。

感谢我的父母、妹妹和女朋友给我一贯的支持和帮助!

唐松

中国深圳

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值