使用scrapy+mysql爬取拉勾网移动端页面

本文介绍了如何使用Scrapy和MySQL爬取并存储拉勾网移动端的职位信息。首先,详细解析了搜索职位页面的参数和返回数据,接着探讨了职位详情页面的数据处理和数据库操作。最后,提到了结果展示和多线程在数据存取中的应用。
摘要由CSDN通过智能技术生成
字数 4061

使用scrapy+mysql爬取拉勾网移动端页面


前期准备:

  • Python3.6
  • virtualenv ( pip install virtualenv )
  • Scrapy ( pip install Scrapy )
  • PyMySQL ( pip install pymysql )
  • Mysql服务器

1. 搜索职位页面

https://m.lagou.com/search.json?city=广州&positionName=python&pageNo=1

1.1 参数说明:
  • city:搜索的城市
  • positionName:职位名称
  • pageNo:页码

1.2 返回数据:

cmd-markdown-logo


cmd-markdown-logo


1.3数据处理:
  • pageSize 每页显示多少个职位信息。 json->content->data->page->pageSize )
  • totalCount 总共有多少个职位。 json->content->data->page->totalCount )
  • positionId 职位id,打开职位详情页面需要的参数,返回的类型为int型。 json->content->data->page->result[]->positionId )

以上是重要的数据,至于其他数据可选择性收集。

根据pageSizetotalCount可计算需要爬取多少个页面,代码如下:

  1. pages = totalPage//pageSize
  2. pages = pages+1 if totalPage%pageSize else pages


1.4 操作数据库
  1. import pymysql
  2. host = '127.0.0.1' # 数据库服务器.
  3. user = 'root' # 数据库用户.
  4. password = '' # 该用户的密码.
  5. dbName = 'lg' # 数据库名.
  6. cursor = None
  7. tyr:
  8. db = pymysql.connect(host=host, user=user, password=password, db=dbName)
  9. except Exception as e:
  10. print(e)
  11. else:
  12. cursor = db.cursor() # 创建游标对象.
  13. # 创建表.
  14. sql = '''
  15. CREATE TABLE IF NOT EXISTS `job`(
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值