不想说废话了,所以这篇文章还是同样直奔猪蹄......快到饭点了,见谅见谅。这次,我们聊聊urllib2库在Python(Python2 Python3)中的基本使用,希望大家会喜欢啦~
urllib2库的基本使用:
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习urllib2。urllib2 在 python3.x 中被改为urllib.request.
在python2中,urllib2的库基本使用:
# 导入urllib2 库
import urllib2
# 向指定的url发送请求,并返回服务器响应的类文件对象
response = urllib2.urlopen("http://www.baidu.com")
#read()方法读取文件全部内容,返回字符串
html = response.read()
# 打印字符串
print(html)
在python3中,urllib库的使用:
#导入urllib库
import urllib.request
# 向指定的url发送请求,并返回服务器响应的类文件对象
response=urllib.request.urlopen('http://www.baidu.com')
#read()方法读取文件全部内容,返回字符串
html=response.read()
print(html)
如何模拟浏览器进行访问?
最好通过抓包工具,或者浏览器的调试工具,找到Headers.
#导入模块
import urllib.request
import urllib.parse
#url,模拟浏览器
hearder={
'User-Agent':'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
#发送请求
request=urllib.request.Request(url,headers=header)
response=urllib.request.urlopen(request).read()
#写入文件
f=open("./1.html","wb")
f.write(reponse)
f.close()
好了好了,学习时间结束,快去玩水吧。呃,不对,玩耍,怪输入法还是怪我?这都不重要,重要的是要记得关注我。。。一遍又一遍地强调这个问题,就是因为你不关注我。