Python虚拟环境的安装和适用
1. 安装
在windows电脑的命令提示符中执行安装虚拟环境软件包: pip install virtualenv
;
2. 虚拟环境的使用
1)创建虚拟环境
在自己的电脑上找个合适的位置创建一个文件夹用来存放虚拟环境,然后通过CD指令进入该文件夹:
磁盘名:(例如:E:)
cd 选择路径,复制地址
创建虚拟环境:
cd 路径地址(自动显示) virtualenv ENV
激活:激活后
ENV\路径地址(自动显示)\activate
退出:
ENV\路径地址(自动显示)\deactivate
import requests
from re import findall
import json
import threadpool
from queue import Queue
import csv
from threading import Thread
# 爬虫的基本步骤: 获取网页数据 -> 解析数据 -> 保存数据
def get_total_page(job):
"""
获取指定岗位的搜索结果的总页数
:param job: 岗位名称
:return: 总页数/(None)
"""
header = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'
}
url = f'https://search.51job.com/list/090200,000000,0000,00,9,99,{job},2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='
response = requests.get(url, headers=header)
if response.status_code == 200:
# print(response.text)
json_data = get_json_data(response.text)
return int(json_data['total_page'])
else:
print('请求失败!', response)
def get_json_data(data):
"""
获取请求结束中保存岗位信息的json数据
:param data: 网页源代码
:return: json转换成python的字典
"""
re_str = r'(?s)window.__SEARCH_RESULT__ = (.+?)</script>'
json_str = findall(re_str, data)[0]
return json.loads(json_str)
def get_one_page_data(info: str):
"""
获取单页数据
:param info:
:return:
"""
job, page