拉钩网网址为:https://www.lagou.com/
点击F12进入控制台观察结构,发现所有的招聘内容都在此json文件中:
注意headers中的请求url以及请求方法:
还有表单数据:
获取以上信息后,基本就可以开始爬取工作,注意,拉钩网有反爬机制,所以需要使用cookie,referer,user-agent模拟浏览器登录。
代码如下:
#导入模块
import requests
from bs4 import BeautifulSoup
from urllib.parse import quote
#键入信息
keyword = input("关键词:")
city = input("所在城市:")
#将所在城市字符串转换成url编码
city = quote(city)
headers = {
'Cookie':'_ga=GA1.2.1209754414.