python爬出书籍下载-Python网络爬虫从入门到实践 PDF 高质量扫描版

给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python、网络爬虫、入门、实践方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小154.1 MB,唐松/陈智铨编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.2。

内容介绍

读者评价

这本书很实用,无论你是否有一定的编程基础,只要你对爬虫技术感兴趣,它能带领我们成为网络爬虫高手!作者用通俗易懂的语言,让我这个50岁的老娘也想成为网络爬虫高手!网络时代需要它!

作为新手入门书相当适合,整体讲的都很浅,也对实际中可能遇到的很多问题作了相应的解答。不过问题就是,这本书让人怀疑作者完成之后到底有没有进行校对,漏洞百出都不足以形容它了。

有一定爬虫基础,用半个小时过了一遍,感觉该书实在是由浅至深的呈现给读者。 迟点再把代码过一遍,相信会有不少长进

这本书适合入门了解,适合新手对爬虫的大体了解,不适合做工具书,对需要进阶的朋友帮助不大

对于小白来说是本不错的爬虫入门书,没有太多理论,直接教你动手实操,不过代码有些问题,有些不能实现。作者有博客,将错误的代码修改后发布在网上了,很诚意

内容简介

本书将介绍如何使用Python编写网络爬虫程序获取互联网上的大数据。本书包括三部分内容:基础部分、进阶部分和项目实践。基础部分( 1~6章)主要介绍爬虫的三个步骤(获取网页、解析网页和存储数据),并通过诸多示例的讲解,让读者从基础内容开始性地学习爬虫技术,并在实践中提升Python爬虫水平。进阶部分( 7~12章)包括多线程的并发和并行爬虫、分布式爬虫、更换IP等,帮助读者进一步提升爬虫水平。项目实践部分( 13~16章)使用本书介绍的爬虫技术对几个真实的网站进行抓取,让读者能在读完本书后根据自己的需求写出爬虫程序。无论是否有编程基础,只要是对爬虫技术感兴趣的读者,本书就能带领读者从入门到进阶,再到实战,一步步了解爬虫,终写出自己的爬虫程序。

内容节选

python爬虫实战之最简单的网页爬虫教程

前言

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。最近对python爬虫有了强烈地兴趣,在此分享自己的学习路径,欢迎大家提出建议。我们相互交流,共同进步。话不多说了,来一起看看详细的介绍:

1.开发工具

笔者使用的工具是sublime text3,它的短小精悍(可能男人们都不喜欢这个词)使我十分着迷。推荐大家使用,当然如果你的电脑配置不错,pycharm可能更加适合你。

2.爬虫介绍

爬虫顾名思义,就是像虫子一样,爬在Internet这张大网上。如此,我们便可以获取自己想要的东西。

既然要爬在Internet上,那么我们就需要了解URL,法号"统一资源定位器”,小名"链接”。其结构主要由三部分组成:

(1)协议:如我们在网址中常见的HTTP协议。

(2)域名或者IP地址:域名,如:www.baidu.com,IP地址,即将域名解析后对应的IP。

(3)路径:即目录或者文件等。

3.urllib开发最简单的爬虫

(1)urllib简介

Module

Introduce

urllib.error

Exception classes raised by urllib.request.

urllib.parse

Parse URLs into or assemble them from components.

urllib.request

Extensible library for opening URLs.

urllib.response

Response classes used by urllib.

urllib.robotparser

Load a robots.txt file and answer questions about fetchability of other URLs.

(2)开发最简单的爬虫

百度首页简洁大方,很适合我们爬虫。

爬虫代码如下:

from urllib import request

def visit_baidu():

URL = "http://www.baidu.com"

# open the URL

req = request.urlopen(URL)

# read the URL

html = req.read()

# decode the URL to utf-8

html = html.decode("utf_8")

print(html)

if __name__ == '__main__':

visit_baidu()

结果如下图:

201810191124484.png

我们可以通过在百度首页空白处右击,查看审查元素来和我们的运行结果对比。

当然,request也可以生成一个request对象,这个对象可以用urlopen方法打开。

代码如下:

from urllib import request

def vists_baidu():

# create a request obkect

req = request.Request('http://www.baidu.com')

# open the request object

response = request.urlopen(req)

# read the response

html = response.read()

html = html.decode('utf-8')

print(html)

if __name__ == '__main__':

vists_baidu()

运行结果和刚才相同。

(3)错误处理

错误处理通过urllib模块来处理,主要有URLError和HTTPError错误,其中HTTPError错误是URLError错误的子类,即HTTRPError也可以通过URLError捕获。

HTTPError可以通过其code属性来捕获。

处理HTTPError的代码如下:

from urllib import request

from urllib import error

def Err():

url = "https://segmentfault.com/zzz"

req = request.Request(url)

try:

response = request.urlopen(req)

html = response.read().decode("utf-8")

print(html)

except error.HTTPError as e:

print(e.code)

if __name__ == '__main__':

Err()

运行结果如图:

201810191124485.png

404为打印出的错误代码,关于此详细信息大家可以自行百度。

URLError可以通过其reason属性来捕获。

chuliHTTPError的代码如下:

from urllib import request

from urllib import error

def Err():

url = "https://segmentf.com/"

req = request.Request(url)

try:

response = request.urlopen(req)

html = response.read().decode("utf-8")

print(html)

except error.URLError as e:

print(e.reason)

if __name__ == '__main__':

Err()

运行结果如图:

201810191124486.png

既然为了处理错误,那么最好两个错误都写入代码中,毕竟越细致越清晰。须注意的是,HTTPError是URLError的子类,所以一定要将HTTPError放在URLError的前面,否则都会输出URLError的,如将404输出为Not Found。

代码如下:

from urllib import request

from urllib import error

# 第一种方法,URLErroe和HTTPError

def Err():

url = "https://segmentfault.com/zzz"

req = request.Request(url)

try:

response = request.urlopen(req)

html = response.read().decode("utf-8")

print(html)

except error.HTTPError as e:

print(e.code)

except error.URLError as e:

print(e.reason)

大家可以更改url来查看各种错误的输出形式。

目录

推荐序

推荐序二

前言

前言二

第1章网络爬虫入门

1.1为什么要学网络爬虫

1.1.1 网络爬虫能带来什么好处

1.1.2能从网络上爬取什么数据

1.1.3应不应该学爬虫

1.2网络爬虫是否合法

1.2.1 Robots协议

1.2.2 网络爬虫的约束

1.3网络爬虫的基本议题

1.3.1 Python爬虫的流程

1.3.2三个流程的技术实现

2章编写第一个网络爬虫

2.1搭建Python平台

2.1.1 Python的安装

2.1.2使用pip安装第三方库

2.1.3使用编译器Jupyter编程

2.2 Python使用入门

2.2.1基本命令

2.2.2数据类型

2.2.3条件语句和循环语句

2.2.4函数

2.2.5面向对象编程

2.3编写第一个简单的爬虫

第3章静态网页抓取

第4章动态网页抓取

第5章解析网页

第6章数据存储

第7章提升爬虫的速度

第8章反爬虫问题

第9章解决中文乱码

第10章登录与验证码处理

第11章服务器采集

第12章分布式爬虫

第13章爬虫实践一:维基百科

第14章爬虫实践二:知乎Live

第15章爬虫实践三:百度地图API

第16章爬虫实践四:餐厅点评

以上就是本次介绍的Python爬虫电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

展开 +

收起 -

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值