python 爬虫笔记

1.初次接触urllib库
urllib库是python中用于操作url,爬虫中经常用到的库。pyhon3.x之后合并成urllib库
,使用的方法有改变。urllib中包括了四个模块urllib.request,urllib.error,urllib.parse,urllib.robotparser。
urllib.request可以用来发送request和获取request的结果
urllib.error包含了urllib.request产生的异常
urllib.parse用来解析和处理URL
urllib.robotparse用来解析页面的robots.txt文件

2.使用python的urllib爬取网页
步骤1. 首先需要导入urllib库的request
import urllib.request //导入模块
步骤2.然后使用urllib.request.urlopen爬取一个网页
urllib.request.urlopen( url, data=None, [ timeout, ] *, cafile=None, capath=None, cadefault=False, context=None)有时候由于url标准,我们要通过编码来解决

urllib.request.quote(url) //编码
urllib.request.unquote() //解码

它返回一个 HTTPResponse 类型的对象,这个对象比较常用的方法如下:
*.info()
返回与当前环境有关的变量
*.getcode()
返回爬取网页的状态码
*.geturl()
返回爬取的源网页地址
步骤3.接下来通过 HTTPResponse的方法获取网页的内容
  • *.read()读取文件的全部内容,返回的是一个字符串变量
  • *.readlines()读取文件的全内容,readlines()方法获得的是一个列表变量,这个方法通常比较常用
  • *.readline()读取的是文件的一行内容
那么如何将获取的网页保存到本地呢?
可以通过以下两种方法
  1. 以写入的方式打开一个本地文件,命名为*.html,然后将得到的变量写入如
fwrite=open("路径","wb“)
fwrite.write(data)
  1. 使用urllib.request.urlretrieve(url,filename=本地文件地址),这个方法会产生缓存,可以用urllib.request.urlcleanup()
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值