2018-05-09笔记:
最近迷上了爬虫,爬取招聘信息,存在MongoDB上
代码思路和上一篇爬取酷狗TOP500差不多,但是在使用CSS选择器的时候,有两组信息是连在一起,所以使用正则来获取
本来使用串行爬取完美,后来学着用多进程,直接封了IP,郁闷。明天学IP池在玩,贴上完整代码
要玩多进程,先搞IP池
import re #正则模块
import time #时间模块
import requests #请求网页
from bs4 import BeautifulSoup #解析网页
from pymongo import MongoClient #MongoDB数据库
from multiprocessing import Pool #多进程
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'
} #请求头
client = MongoClient() # 连接MongoDB
song = client.My_db.zhaopin # 在数据库中新建类
def get_zhaopin(url):
'''爬取BOSS直聘网,数据岗位'''
res = requests.get(url, headers=headers) #请求网页