python爬取拉勾网公司信息（您操作太频繁，请稍后访问）

最新推荐文章于 2024-08-16 12:23:01 发布

fwpevil

最新推荐文章于 2024-08-16 12:23:01 发布

阅读量3.9k

点赞数 5

文章标签： python 爬虫

本文链接：https://blog.csdn.net/fwpevil/article/details/90956762

版权

最近爬取拉勾网上的公司信息碰到了很多问题，但是都一一解决了。作为一个招聘网站，他的反爬措施做的还是很好的。

为了调查招聘网站上有多少公司，以及公司信息，并把公司信息存入MongoDB数据库中。

先上运行成功代码：

import requests 
import json,time,random
import pymongo
from lxml import etree    #导入需要用到的库文件

client=pymongo.MongoClient('localhost',27017)
test=client['info_company']
lagou=test['lagou']        #连接数据库

def gongsi_info(url):  #定义获取公司信息的函数
    for pn in range(2,31):
        params={
                'first':'false',
                'pn':str(pn),
                'sortField':'0',
                'havemark':'0'
                }                  #post请求参数
        
        try:
            with open('已下载页面.txt','r',)as f:  #如果存在该文件，就打开并读取内容，否则就创建该文件
                t=f.readlines()
            if str(pn)+'\n' in t:
                print('第