Python爬虫之爬取实习僧并导入Mysql

最新推荐文章于 2024-08-02 11:05:19 发布

是白白

最新推荐文章于 2024-08-02 11:05:19 发布

阅读量1k

点赞数 2

文章标签：爬虫 python mysql

本文链接：https://blog.csdn.net/m0_59874815/article/details/121408970

版权

爬虫第一步先大概分析一下目标网站

插画师实习_插画师实习生招聘信息 – 实习僧实习僧为大学生提供2021年最新的插画师实习,插画师实习生招聘信息。助力大学生职业发展,帮助企业有效招聘,找实习校招就上实习僧https://www.shixiseng.com/interns?page=1&type=intern&keyword=%E6%8F%92%E7%94%BB%E5%B8%88可以看到这里对应得是网站得页数后续爬虫得时候修改这里就可以了

当时我看到有五百多页，就直接点到第六页想看看后续会不会弹出登录验证，因为有些网站得话你不登录它是不会让你看到后面得内容得

不过点了之后根本什么都没有，关于插画师这个岗位其实最多就三页我用自己账号登录了网站看也是一样得，说明这不是什么反爬是个BUG

然后就到非常有意思得地方了，可以看到主页面这里是有字体反爬得我们需要映射字体对吧，

但是我点进职位详情页发现没有字体反爬，也就是我们直接获取职位得url去提取里面得内容就可以了，不需要去做字体映射得关系，这我就很迷啊有点摸不着头脑

到这里就分析的差不多了，我们先来获取前三页的的url顺便定义好headers

import requests
import random  #随机模块
from lxml import etree
import pymysql
UserAgents=[
'Mozilla/5.0 (Windows x86; rv:19.0) Gecko/20100101 Firefox/19.0',
'Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36',
'Mozilla/5.0 (Microsoft Windows NT 6.2.9200.0); rv:22.0) Gecko/20130405 Firefox/22.0',
'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.17 Safari/537.36',
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1468.0 Safari/537.36'
]  #里面存放的是请求头
user_agent=random.choice(UserAgents)  #使用随机请求头
headers = {'User-Agent':user_agent,
           'Cookie': '__jsluid_s=20d0f2e1ce22b48592d30b6313d6fea2; gr_user_id=9fb80ce1-f678-432d-af38-3a13139e61c7; utm_source_first=PC; utm_source=PC; utm_campaign=PC; gr_session_id_96145fbb44e87b47=f025cea3-727d-4cb3-9521-8319e0f463c9; gr_cs1_f025cea3-727d-4cb3-9521-8319e0f463c9=user_id%3Anull; Hm_lvt_03465902f492a43ee3eb3543d81e

最低0.47元/天解锁文章

是白白

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫之爬取实习僧并导入Mysql

爬虫第一步先大概分析一下目标网站插画师实习_插画师实习生招聘信息 – 实习僧实习僧为大学生提供2021年最新的插画师实习,插画师实习生招聘信息。助力大学生职业发展,帮助企业有效招聘,找实习校招就上实习僧https://www.shixiseng.com/interns?page=1&type=intern&keyword=%E6%8F%92%E7%94%BB%E5%B8%88可以看到这里对应得是网站得页数后续爬虫得时候修改这里就可以了当时我看到有五百多页，就直接点到第六页想看看后续会
复制链接

扫一扫