首先
import requests from bs4 import BeautifulSoup
resquests库是用来获取网页全部内容的
用法
header={
"User-Agent":"自己的浏览器访问网页的客户端信息(打开网页鼠标右键点击检查,选择里面的网络那一栏,再刷新网页,点击新出现的信息,就可以看到User-Agent的值)"
}
res=requests.get('网址',headers=header)
得到网页对应服务器返回的信息
为headers赋值是为了将爬虫程序伪装成浏览器(有些网页不回应爬虫程序)
headers的属性不写也可以
查看是否访问成功
print(res.status_code)
BeautifulSoup库是为了处理服务器返回的信息
soup=BeautifulSoup(res.text,"html.parser")
一些常用的处理数据的方法
soup.findAll("HTML标签名",attres={"属性名":"属性值"})
用于筛选出需要的数据