NO 1,明确目标
目的:Python爬取前程无忧网招聘关于在杭州测试工程师的招聘信息(其中包括招聘公司,招聘信息,月薪范围),并保存在mysql数据库中
分解目的:
1,创建一个FindJobs类:爬取信息
2,创建一个Data_Transport类:将爬取信息保存到mysql
继续分解
FindJobs类下面的方法:
1,创建一个get_webpage()方法:爬取前程无忧网,获取在杭州测试工程师各招聘网站信息(工具:selenium+chrome);
2,创建一个data_cleaning()方法:爬取get_webpage()获取的网站,清洗数据,返回招聘公司,招聘信息,月薪范围信息(工具:bs4+正则+requests)。
NO 2,环境准备
1,selenium+chrome
不同的谷歌浏览器对应不同的谷歌驱动版本,firefox浏览器驱动为geckodriver.exe。
下载完成后,如果方便的话直接将谷歌驱动放入你python.exe同一目录下(Python环境变量目录)
百度盘资源: https://pan.baidu.com/s/1-6hjqstNQ6Fek4hN1vukrA
更多selenium入门学习,参考Anthony_tester的博客,很详细,值得一看。
2,Python导入模块
from selenium import webdriver
import time
import requests
import re
from bs4 import BeautifulSoup
import pymysql
如果在终端的话,直接pip install 就可以了,如:pip install selenium
如果你使用的是pycharm
1,点击左上方File
2,点击setting,找到你的项目,然后点击“+”号就可以
3,在搜索框输入你要下载模块,比如selenium
点击install Package就开始下载了
更多bs4资料:https://www.cnblogs.com/09120912zhang/p/7624643.html