使用requests爬取实习僧网站数据

v2-e2bb672ad02c2cf958d45a909e577c88_b.jpg


任务要求:

爬取实习僧网站的招聘公司信息和职位信息,并存储到数据库中,对应的数据库表和需要爬取的字段见下面表一和表二(注意:爬取存在的字段)

代码以上传带github上:使用requests爬取实习僧网站数据

看一下爬下来的结果图:

公司信息:


v2-ceb89f3e720a00644227639aabe53cc1_b.jpg


职业信息:


v2-6a140fcd165bf3d778131cccd0f8f085_b.jpg


1. 检查是否有api

        
      

2. 选择需要连接的数据库

mysql

3. 数据流分析

4. 数据采集

  • 请求模块
    requests
  • 解析工具
    xpath
  • 数据存储
    mysql
  • 爬虫效率提升问题
    使用多协程

5. 反反爬虫

        会有请求失败的问题:通过添加请求头解决
      


v2-831eb9242513a82dc81356d93644a54a_b.jpg



遇到的问题:

        1. 在爬取的字符串数据中值需要一部分:
    使用split将字符串进行切割
2. 判断爬取的数据是否是你需要的:
    使用if判断a字符串是否在b中
3. 爬取停止:
    sys.exit('tingzhi')

4.crontab定时任务:
    - 先vim /var/spool/cron/root  (打开这个文件)
    - 添加任务:
        每天的第一个小时的第一个分钟执行
        1 1*** python /root/lezhi/爬取实习僧/spider_shixiseng.py
    - esc 之后 :wq保存退出

**部署问题:**
    screen -x 20156  (打开后台状态为 Attached 且名称为 django 的 screen shell)

    vim 编译器
        :  (冒号进入编译模式)
            q 退出
            w 保存
            i 编辑

    screen -X -S 4588 quit  (杀死一个已经detached的screen会话  )
      

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

执笔人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值