爬虫入门总结 by 婉约在风里

爬虫入门总结

by 婉约在风里

核心:urllib模块中的request

方法,urlopen(打开链接),Request(模仿请求),在爬取网页之后记得.read()进行内容读取,后面也有header,报头模拟,解决403问题,利用正则表达式和compile().findall()方法进行制定内容获取。

异常处理,尽量利用try函数对爬虫部分进行封装,这样遇到异常,爬虫不会崩掉,其次,设置好except,将报错信息返回给用户,结合文件操作,可以利用urlretrieve函数对网页获取内容进行下载,其中涉及到的参数如下

urlretrieve(url, filename``=``None``, reporthook``=``None``, data``=``None``),filename定义了文件位置以及文件类型。比如filename=D:name.txt,就是一个合法的参数定义格式。

同样我们可以配合文件操作,open()以及write,将爬取到的内容整合到一个txt,htm,文件,其中利用compile().findall()得到的返回值为一个列表,列表操作相当简单,就不做赘述。

对于用于大工程的爬虫会用到scrapy框架,涉及到的内容过多, 再次略过。其次有必要讲解一下的就是多线程爬虫,需要利用到treading模块,直接看help(treading)即可查看,也是一个十分简单的模块。

 

转载于:https://www.cnblogs.com/wanyuezaifengli/p/10314931.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值