python爬取拉勾网公司信息(您操作太频繁,请稍后访问)

最近爬取拉勾网上的公司信息碰到了很多问题,但是都一一解决了。作为一个招聘网站,他的反爬措施做的还是很好的。

为了调查招聘网站上有多少公司,以及公司信息,并把公司信息存入MongoDB数据库中。

先上运行成功代码:

import requests 
import json,time,random
import pymongo
from lxml import etree    #导入需要用到的库文件

client=pymongo.MongoClient('localhost',27017)
test=client['info_company']
lagou=test['lagou']        #连接数据库

def gongsi_info(url):  #定义获取公司信息的函数
    for pn in range(2,31):
        params={
                'first':'false',
                'pn':str(pn),
                'sortField':'0',
                'havemark':'0'
                }                  #post请求参数
        
        try:
            with open('已下载页面.txt','r',)as f:  #如果存在该文件,就打开并读取内容,否则就创建该文件
                t=f.readlines()
            if str(pn)+'\n' in t:
                print('第
  • 5
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值