山东大学暑期项目实训第一周 1

最新推荐文章于 2021-07-28 23:05:04 发布

曾小美

最新推荐文章于 2021-07-28 23:05:04 发布

阅读量99

点赞数

本文链接：https://blog.csdn.net/qq_44821870/article/details/118378874

版权

文章目录

需求
一、任务
二、方法

需求

云主机服务价格爬虫是云主机服务比价系统的基础模块，实现对云平台中云主机服务价格的爬取操作，并将爬取的价格信息写入后台数据库，实现持久化存储。云主机服务价格爬虫使管理员和用户从原来大量的手工操作中解脱出来，真正实现了工作效率和质量的快速提升。
需要根据这不同平台的特点分别设计、实现爬虫。此外，由于从不同的云主机服务平台获取的数据格式可能不统一、表达不规范，无法直接应用于云主机服务比价、推荐模块，需要进行规范化处理，将系统所需的所有云主机服务器相关数据转化为本系统通用的数据格式。

一、任务

通过网络爬虫的方法对百度云服务器数据进行爬取，要求包括数据为cpu核数，cpu类型，区域，包月价格，pps，产品名，产品类型，内存，爬取时间。数据格式为csv形式，清洗后导入数据库中

二、方法

1.总述

通过python+selenium的方式模拟用户点击事件来对网站数据进行爬取

2.引入库

from selenium import webdriver
import time
import csv
from selenium.webdriver import ActionChains
from selenium.webdriver.common.keys import Keys

3.加载谷歌驱动

driver = webdriver.Chrome(executable_path=r'C:\Program Files\Google\Chrome\Application\chromedriver.exe')

曾小美

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
山东大学暑期项目实训第一周 1

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录需求一、任务二、方法需求爬取百度云服务器的相关数据，以便于对数据进行集成和分析预测一、任务通过网络爬虫的方法对百度云服务器数据进行爬取，要求包括数据为cpu核数，cpu类型，区域，包月价格，pps，产品名，产品类型，内存，爬取时间。数据格式为csv形式，清洗后导入数据库中二、方法1.总述通过python+selenium的方式模拟用户点击事件来对网站数据进行爬取2.引入库
复制链接

扫一扫