学习python三个月,渐渐的的也开始了爬虫之旅,根据某本书的指导,开始想写一个通用的爬虫小程序,希望有大神能指点一下。
import datetime
import time
from selenium import webdriver
import re
class MyCommonSpider:
def __init__(self):
pass
使用了selenium进行模拟鼠键操作,目标是爬取51job上的职位信息
def get_data(self, url, send_keys='', pages_you_want=1, search_field='', search_button='', page_field='',
next_button=''):
'''
获取页面数据的函数
:param url: 获取页面的地址
:param send_keys: 搜索框中的搜索关键词
:param pages_you_want: 你需要爬取的总页数
:param search_field: 搜索框的xPath
:param search_button: 搜索按钮的xPath
:param page_field: 页面填写框
:param next_button: 下一页按钮
:return: 返回存储所有页面数据的list[str]
'''
browser = webdriver.Chrome() # 获取一个浏览器对象 使用谷歌浏览器
browser.maximize_window() # 整个页面显示
browser.get(url) # 获取页面
time.sleep(3)
if send_keys != '' and search_field != '':
browser.find_element_by_xpath(search_field).clear() # 清空搜索框数据
browser.find_element_by_xpath(search_field).send_keys(send_keys) # 写入搜索关键字
if search_button != '':
browser.find_element_by_xpath(search_button).clic