最近爬取拉勾网上的公司信息碰到了很多问题,但是都一一解决了。作为一个招聘网站,他的反爬措施做的还是很好的。
为了调查招聘网站上有多少公司,以及公司信息,并把公司信息存入MongoDB数据库中。
先上运行成功代码:
import requests
import json,time,random
import pymongo
from lxml import etree #导入需要用到的库文件
client=pymongo.MongoClient('localhost',27017)
test=client['info_company']
lagou=test['lagou'] #连接数据库
def gongsi_info(url): #定义获取公司信息的函数
for pn in range(2,31):
params={
'first':'false',
'pn':str(pn),
'sortField':'0',
'havemark':'0'
} #post请求参数
try:
with open('已下载页面.txt','r',)as f: #如果存在该文件,就打开并读取内容,否则就创建该文件
t=f.readlines()
if str(pn)+'\n' in t:
print('第