本书不仅介绍了网页抓取,也为抓取、转换和使用新式网络中各种类型的数据提供了全面的指导。虽然本书用的是Python编程语言,涉及Python的许多基础知识,但这并不是一本Python 入门书。
如果你完全不了解Python,那么这本书看起来可能有点儿费劲。请不要将本书用作Python的入门书。我尽量按照初、中级Python编程水平来编写书中的概念和代码示例,以便让更广泛的读者可以轻松地理解本书。但书中偶尔会包含一些更高级的Python编程知识以及一些常见的计算机科学话题。如果你是一位编程高手,那么你可以跳过书中相应的内容。
如果你想更全面地学习Python,Bill Lubanovic写的《Python语言及其应用》'是本非常好的教材,只是书有点儿厚。如果不想看书,Jessica Mckellar的教学视频Introduction to Python也非常不错。我也非常喜欢我的前教授Allen Downey写的《像计算机科学家一样思考Python》,这本书非常适合编程新手,介绍了计算机科学和软件工程的概念,以及Python语言。
技术书通常仅仅专注于一种语言或者一种技术,但是网页抓取是一个相当分散的主题,在实践中会涉及数据库、网络服务器、HTTP协议、HTML语言、网络安全、图像处理、数据科学等内容。本书试图从“数据收集”的角度涵盖所有这些内容以及其他话题。当然,本书不会对这些主题做完整的介绍,但是我相信对于入门编写网络爬虫来说足够了。
PC官方版
安卓官方手机版
IOS官方手机版