python之requests爬虫Boss数据
需要用到的库:reqeusts、lxml
没有的可以用直接下载
pip install requests
pip install lxm
这里以python岗位,地点北京为例
爬取的数据就是岗位名称、薪资、地点
首先导入需要用到的模块
import requests
from lxml import etree
岗位可以通过input提前输入好,传参给url
job = input('输入职位')
将需要访问的url赋给一个变量
url = 'https://www.zhipin.com/job_detail/?query=%s&city=101010100&industry=&position='%job
query=%s(%s是一个占位)在引号后面的%job就是占的值
访问这个页面需要加一个头部(headers)降低被识别爬虫的概率
在当前页面按f12点击Network,如果没有东西的话可以刷新一下页面
这里只用到两个参数,一个user-agent,一个cookie
headers = {
'user-agent': 'Mozilla/5.