爬虫步骤
- 发起请求;
- 获取响应内容;
- 解析内容;
- 保存数据。
具体实现
在写爬虫之前,我们先来看一下要爬取的网页。
上图是B站热门视频排行榜,需要的数据已经在图中标出,即视频名称和播放量。
接下来是具体的实现。
首先导入包。
import requests
from pyquery import PyQuery as pq
import pandas as pd
然后定义url和headers(包含了浏览器,编码等信息,网站会通过这部分信息来判断我们的身份),用request.get()方法向服务器发出请求,得到response对象。response.text打印出来就是网页的html。
url =