自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 山东大学暑期项目实训 第四周 3

简述 到本周,累计爬取数据20000+,数据量在811和756之间波动,价格有些许变化。 到现在爬虫代码基本定型,网页也无变化,仅数据量发生变化。

2021-07-30 19:53:05 65

原创 山东大学暑期项目实训 第二周 3

一、今日问题 今天百度云服务器网页出现新的变动。保定的部分通用型机型下架,导致弹窗有了新的变化,所以对该问题进行了新的处理。 二、处理代码 try: driver.find_element_by_xpath('//*[@id="ctrl-bcc-price-instances-single-select{}"]'.format(tr_num)).click() except: time.sleep(3) 该

2021-07-30 19:48:32 67

原创 山东大学暑期项目实训 第三周 3

目录 一、数据库格式 二、数据格式化 一、数据库格式 二、数据格式化 通过设计的数据库格式,把csv文件首行设置与数据库相同即可,这样在传输时避免发生首行错误或数据丢失现象

2021-07-30 19:43:58 59

原创 山东大学暑期项目实训 第三周 2

此次为对第三周拖更进行完善,主要阐述数据获取后的存储形式。 一、数据存储 数据存储形式为通过open with方法把爬取数据以csv文件形式永久性存储,存储周期为每天一存。 二、数据转移 将csv文件每天通过Navicat将其转存至数据库中,并把每天转存后的数据库到处为*.sql文件。 三、备份 之所以将数据经过多次转移处理,是为了实现多形式的数据备份,防止数据转移出现错误或者不小心将某行数据删除从而导致自增顺序出现错误。 ...

2021-07-30 19:25:09 71

原创 山东大学暑期项目实训 第五周 3

目录 一、项目总结 二、项目中的问题 一、项目总结 今天结束了本学期的项目实训。此次项目实训,在队友们的协调工作下,我们完成了一个云服务器比价系统。体验到了一个代码工作者的规律,团队开发日常,进一步加深了对爬虫,数据库操作,对后端预测,比价有所了解。收获满满。 二、项目中的问题 这是第一次从原来的单人开发转变为团队开发,初期存在很多协调问题,还有对github的不熟悉操作,好在队长的指导帮助下得以工作。还有就是对各网页爬取数据时,由于是周期性爬取,存在网页DOM树变动,也给代码的编写带来麻烦。

2021-07-30 13:45:17 71

原创 山东大学暑期项目实训 第五周 2

9

2021-07-29 18:13:25 65

原创 山东大学暑期项目实训 第五周 1

2

2021-07-28 23:05:04 58

原创 山东大学暑期项目实训 第四周 2

3

2021-07-25 20:27:39 53

原创 山东大学暑期项目实训 第四周 1

2

2021-07-23 21:35:36 51

原创 山东大学暑期实训 第三周 1

1

2021-07-18 20:52:11 50

原创 山东大学暑期项目实训 第二周 2

一、工作任务 数据爬取周期为一天一次,对百度云服务器数据爬取。 二、工作过程 #变更购买地区 location=driver.find_element_by_id('ctrl-bcc-price-region').find_element_by_tag_name('ul').find_elements_by_tag_name('li')[location_num] location_text=location.text location.click() if location

2021-07-08 09:24:15 54

原创 山东大学暑期项目实训 第二周 1

目录 一、代码变动 二、网站变动 三、数据变动 总结 一、代码变动 二、网站变动 三、数据变动 总结 提示:这里对文章进行总结: 例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。 ...

2021-07-07 10:01:53 59

原创 山东大学暑期项目实训 第一周 3

目录 一周总结 代码改变 一周总结 经过一周的开发,在28主要进行网站模板的观察和数据抽取方法,29号对抽取方法进行了实现,累计爬取数据为4137条数据。 代码改变 try: #driver.find_element_by_css_selector('input[name="ctrl-bcc-price-instances-single-select"]').click() driver.find_el

2021-07-04 21:24:41 59

原创 山东大学暑期项目实训 第一周 2

目录 一、工作目标 二、任务计划 三、代码实现 总结 一、工作目标 为实现云服务器的比价,所以需爬取现主流平台的云服务器数据。包括阿里云,腾讯云,华为云和百度云。我负责的为爬取百度云服务器数据。 二、任务计划 采用python+selenium的方式模拟用户点击事件,对百度云的价格计算器中的数据进行爬取。 将爬取数据采用with open方法写入csv文件进行暂时性保存。 三、代码实现 #对云磁盘写入,保证都在同样其他配置情况下进行价格计算 a...

2021-07-02 09:27:29 61

原创 山东大学暑期项目实训 第一周 1

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 需求 一、任务 二、方法 需求 爬取百度云服务器的相关数据,以便于对数据进行集成和分析预测 一、任务 通过网络爬虫的方法对百度云服务器数据进行爬取,要求包括数据为cpu核数,cpu类型,区域,包月价格,pps,产品名,产品类型,内存,爬取时间。数据格式为csv形式,清洗后导入数据库中 二、方法 1.总述 通过python+selenium的方式模拟用户点击事件来对网站数据进行爬取 2.引入库

2021-07-01 09:22:18 92

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除