爬取目标
1.创建python文件,并导入所需库
目标网址https://search.51job.com/list/000000,000000,0000,00,9,99,Java%25E5%25BC%2580%25E5%258F%2591%25E5%25B7%25A5%25E7%25A8%258B%25E5%25B8%2588,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
2.定义爬取目标网址
3.定义header
4.模拟发送请求,获取网页内容
运行一下
5.规则提取数据
利用etree梳理爬取的网页
利用xpath全程搜索class属性为j_joblist的<div>元素
网站有反爬保护,爬不了数据 |T-T|