个人笔记-爬虫
1、通过职友集网站(https://www.jobui.com/)爬取热门城市及关注岗位数据
2、数据采集信息包括:岗位名称,经验、学历、薪资、公司、浏览量、行业、公司规模、城市
要求:
a、热门城市和关注岗位分别用两个配置文件(txt)进行读取
b、指定路径进行txt文本输出
c、每页数据爬取后休眠5秒钟
# 爬虫基本五步骤:
# 添加爬虫依赖库
# 读取网页内容
# 解析网页内容
# 数据的存储
# 循环解析网页请求
# 【1】添加爬虫依赖库
# 网页请求库
import requests
# 网页解析库
from bs4 import BeautifulSoup
import time
# 【2】读取网页内容
def get(city, job, page):
url = f'https://www.jobui.com/jobs?jobKw={
job}&cityKw={
city}&n={
page}'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'}
response = requests.get(url, headers=headers)
# print(response.text)
return response.text
# 【3】解析网页内容