Python学习笔记-----边学边写第一个爬虫
"""请求网页""" import requests response=requests.get('https://www.baidu.com') print(response.text)
通过chrome开发者工具找到一个headers
"""请求网页"""
import requests
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response=requests.get('https://www.baidu.com',headers=headers)
print(response.text)
print(response.request.headers)
成功请求:
"""请求网页"""
import requests
import re
#re是正则表达式 从不规格的网页里提取有规律的东西
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
#用户代理
response=requests.get('https://www.vmgirls.com',headers=headers)
html=response.text
#print(response.request.headers)
"""解析网页,图片网址"""
urls=re.findall(' <a href=".*?" alt=".*?" title=".*?">',html)
print(urls)
"""保存图片"""
#for url in urls
现在请求成功了,解析不出图片地址,还不知道什么原因