目前我还是爬虫小白,只是会简单通过解析网页数据来保存,还不会模拟登陆,ip代理等技巧,这边只是爬取静态网页,对于动态生成的内容,我就没折了 ,由于最近工作比较忙就没有进一步学习高级爬虫技巧,大伙先勉强看着,后面学会了,给大家分享高级技巧。代码如下:
'''
爬取猎聘网职位信息做数据分析
'''
from bs4 import BeautifulSoup
import requests
import time
import pymongo
'''
保存数据库方法:
'''
def saveToDB(json):
print("正在保存到数据库")
client = pymongo.MongoClient("mongodb://localhost:27017/")
db = client.LiePinData
data = db.android
data.insert_one(json)
'''
爬取主程序
'''
nextUrlBase = "https://www.liepin.com/zhaopin/?init=-1&headckid=870b81c75324cfd6&fromSearchBtn=2&sfrom=click-pc_homepage-centre_searchbox-search_new&ckid=870b81c75324cfd6°radeFlag=0&key=android&siTag=wxsyNkzhnKj80VCkF-zOWA~fA9rXquZc5IkJpXC-Ycixw&d_sfrom&#