经过学习思考后,
当我们去访问一个网页时,是如何进行的?
①打开浏览器,输入要访问的网址,发起请求。
②等待服务器返回数据,通过浏览器加载网页。
③从网页中找到自己需要的数据(文本、图片、文件等等)。
④保存自己需要的数据。
对于爬虫,也是类似的。它模仿人类请求网页的过程,但是又稍有不同。
首先,对应于上面的①和②步骤,我们要利用python实现请求一个网页的功能。
其次,对应于上面的③步骤,我们要利用python实现解析请求到的网页的功能。
最后,对于上面的④步骤,我们要利用python实现保存数据的功能。
1.先对东方财富网的数据进行爬取
按F12进入管理者模式,找到需要的数据
先进行导包
import requests
import re
import time
import random
import openpyxl
2.定义一个函数,然后设置请求头,同时避免被网站反爬虫
对网页1至50页进行爬取。
def main():
cookies =