爬虫的三个步骤:
- 找到你想爬取的元素的位置 可以用Chrome的检查元素来实现
例如一个知乎帖子的图片,可以看到图片地址是在figure节点下的img节点中的data-original属性中 - 构建正则表达式,将这个地址选择出来
- 保存到本地路径中
import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
import os
import re
url = "https://www.zhihu.com/question/315332121"
def get_one_page(url):
try:
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
#请求头要添加,不然访问失败
response