- 博客(15)
- 收藏
- 关注
原创 山东大学暑期项目实训 第四周 3
简述到本周,累计爬取数据20000+,数据量在811和756之间波动,价格有些许变化。到现在爬虫代码基本定型,网页也无变化,仅数据量发生变化。
2021-07-30 19:53:05 103
原创 山东大学暑期项目实训 第二周 3
一、今日问题今天百度云服务器网页出现新的变动。保定的部分通用型机型下架,导致弹窗有了新的变化,所以对该问题进行了新的处理。二、处理代码 try: driver.find_element_by_xpath('//*[@id="ctrl-bcc-price-instances-single-select{}"]'.format(tr_num)).click() except: time.sleep(3)该
2021-07-30 19:48:32 92
原创 山东大学暑期项目实训 第三周 3
目录一、数据库格式二、数据格式化一、数据库格式二、数据格式化通过设计的数据库格式,把csv文件首行设置与数据库相同即可,这样在传输时避免发生首行错误或数据丢失现象
2021-07-30 19:43:58 105
原创 山东大学暑期项目实训 第三周 2
此次为对第三周拖更进行完善,主要阐述数据获取后的存储形式。一、数据存储数据存储形式为通过open with方法把爬取数据以csv文件形式永久性存储,存储周期为每天一存。二、数据转移将csv文件每天通过Navicat将其转存至数据库中,并把每天转存后的数据库到处为*.sql文件。三、备份之所以将数据经过多次转移处理,是为了实现多形式的数据备份,防止数据转移出现错误或者不小心将某行数据删除从而导致自增顺序出现错误。...
2021-07-30 19:25:09 98
原创 山东大学暑期项目实训 第五周 3
目录一、项目总结二、项目中的问题一、项目总结今天结束了本学期的项目实训。此次项目实训,在队友们的协调工作下,我们完成了一个云服务器比价系统。体验到了一个代码工作者的规律,团队开发日常,进一步加深了对爬虫,数据库操作,对后端预测,比价有所了解。收获满满。二、项目中的问题这是第一次从原来的单人开发转变为团队开发,初期存在很多协调问题,还有对github的不熟悉操作,好在队长的指导帮助下得以工作。还有就是对各网页爬取数据时,由于是周期性爬取,存在网页DOM树变动,也给代码的编写带来麻烦。
2021-07-30 13:45:17 120
原创 山东大学暑期项目实训 第二周 2
一、工作任务数据爬取周期为一天一次,对百度云服务器数据爬取。二、工作过程#变更购买地区location=driver.find_element_by_id('ctrl-bcc-price-region').find_element_by_tag_name('ul').find_elements_by_tag_name('li')[location_num] location_text=location.text location.click() if location
2021-07-08 09:24:15 87
原创 山东大学暑期项目实训 第二周 1
目录一、代码变动二、网站变动三、数据变动总结一、代码变动二、网站变动三、数据变动总结提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。...
2021-07-07 10:01:53 92
原创 山东大学暑期项目实训 第一周 3
目录一周总结代码改变一周总结经过一周的开发,在28主要进行网站模板的观察和数据抽取方法,29号对抽取方法进行了实现,累计爬取数据为4137条数据。代码改变 try: #driver.find_element_by_css_selector('input[name="ctrl-bcc-price-instances-single-select"]').click() driver.find_el
2021-07-04 21:24:41 83
原创 山东大学暑期项目实训 第一周 2
目录一、工作目标二、任务计划三、代码实现总结一、工作目标 为实现云服务器的比价,所以需爬取现主流平台的云服务器数据。包括阿里云,腾讯云,华为云和百度云。我负责的为爬取百度云服务器数据。二、任务计划 采用python+selenium的方式模拟用户点击事件,对百度云的价格计算器中的数据进行爬取。将爬取数据采用with open方法写入csv文件进行暂时性保存。三、代码实现#对云磁盘写入,保证都在同样其他配置情况下进行价格计算a...
2021-07-02 09:27:29 130
原创 山东大学暑期项目实训 第一周 1
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录需求 一、任务 二、方法需求爬取百度云服务器的相关数据,以便于对数据进行集成和分析预测一、任务通过网络爬虫的方法对百度云服务器数据进行爬取,要求包括数据为cpu核数,cpu类型,区域,包月价格,pps,产品名,产品类型,内存,爬取时间。数据格式为csv形式,清洗后导入数据库中二、方法1.总述通过python+selenium的方式模拟用户点击事件来对网站数据进行爬取2.引入库
2021-07-01 09:22:18 118
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人