文章目录
- 需求
- 一、任务
- 二、方法
需求
云主机服务价格爬虫是云主机服务比价系统的基础模块,实现对云平台中云主机服务价格的爬取操作,并将爬取的价格信息写入后台数据库,实现持久化存储。云主机服务价格爬虫使管理员和用户从原来大量的手工操作中解脱出来,真正实现了工作效率和质量的快速提升。
需要根据这不同平台的特点分别设计、实现爬虫。此外,由于从不同的云主机服务平台获取的数据格式可能不统一、表达不规范,无法直接应用于云主机服务比价、推荐模块,需要进行规范化处理,将系统所需的所有云主机服务器相关数据转化为本系统通用的数据格式。
一、任务
通过网络爬虫的方法对百度云服务器数据进行爬取,要求包括数据为cpu核数,cpu类型,区域,包月价格,pps,产品名,产品类型,内存,爬取时间。数据格式为csv形式,清洗后导入数据库中
二、方法
1.总述
通过python+selenium的方式模拟用户点击事件来对网站数据进行爬取
2.引入库
from selenium import webdriver
import time
import csv
from selenium.webdriver import ActionChains
from selenium.webdriver.common.keys import Keys
3.加载谷歌驱动
driver = webdriver.Chrome(executable_path=r'C:\Program Files\Google\Chrome\Application\chromedriver.exe')