Python爬虫之爬取实习僧并导入Mysql

爬虫第一步先大概分析一下目标网站

插画师实习_插画师实习生招聘信息 – 实习僧实习僧为大学生提供2021年最新的插画师实习,插画师实习生招聘信息。助力大学生职业发展,帮助企业有效招聘,找实习校招就上实习僧https://www.shixiseng.com/interns?page=1&type=intern&keyword=%E6%8F%92%E7%94%BB%E5%B8%88可以看到这里对应得是网站得页数后续爬虫得时候修改这里就可以了

当时我看到有五百多页,就直接点到第六页想看看后续会不会弹出登录验证,因为有些网站得话你不登录它是不会让你看到后面得内容得

不过点了之后根本什么都没有,关于插画师这个岗位其实最多就三页我用自己账号登录了网站看也是一样得,说明这不是什么反爬是个BUG 

 然后就到非常有意思得地方了,可以看到主页面这里是有字体反爬得我们需要映射字体对吧,

 但是我点进职位详情页发现没有字体反爬,也就是我们直接获取职位得url去提取里面得内容就可以了,不需要去做字体映射得关系,这我就很迷啊 有点摸不着头脑

 

 到这里就分析的差不多了,我们先来获取前三页的的url顺便定义好headers

import requests
import random  #随机模块
from lxml import etree
import pymysql
UserAgents=[
'Mozilla/5.0 (Windows x86; rv:19.0) Gecko/20100101 Firefox/19.0',
'Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36',
'Mozilla/5.0 (Microsoft Windows NT 6.2.9200.0); rv:22.0) Gecko/20130405 Firefox/22.0',
'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.17 Safari/537.36',
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1468.0 Safari/537.36'
]  #里面存放的是请求头
user_agent=random.choice(UserAgents)  #使用随机请求头
headers = {'User-Agent':user_agent,
           'Cookie': '__jsluid_s=20d0f2e1ce22b48592d30b6313d6fea2; gr_user_id=9fb80ce1-f678-432d-af38-3a13139e61c7; utm_source_first=PC; utm_source=PC; utm_campaign=PC; gr_session_id_96145fbb44e87b47=f025cea3-727d-4cb3-9521-8319e0f463c9; gr_cs1_f025cea3-727d-4cb3-9521-8319e0f463c9=user_id%3Anull; Hm_lvt_03465902f492a43ee3eb3543d81e
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值