Python
模拟登录网站并抓取网页的方法
刘艳平,俞海英,戎沁
【摘
要】
首先,阐述了模拟登录网站技术的当下需求及应用场景,之后,介绍
了网站的登录的一般机制及流程,最后,用
python
实现了模拟登录百度账号
并抓取网页数据,并给出了相关代码。
【期刊名称】
微型电脑应用
【年
(
卷
),
期】
2015(031)002
【总页数】
3
【关键词】
web
挖掘;
python
;抓取网页
0
引言
随着人们对数据中隐藏价值信息的重视,数据挖掘成为当下的研究热点。
b/s
模式的兴起,使得
web
成为海量数据的重要来源之一,大量的数据通过
web
发布。因此,
web
中蕴藏着巨大价值的海量数据,挖掘
web
数据成为当下大
数据研究的大方向之一。
为了更好地吸引开发者,以及和开发者更好的交互,微博、微信、人人网等都
开放了
API
,获取相关网站的数据不再难,但是,出于各方面的考虑,利用开
放
API
进行数据抓取时总是有各种各样的限制。以新浪微博为例,新浪微博提
供的
API
对普通用户的权限和抓取频率都进行了限制,每小时只能进行
150
次
的搜索,而且无法对微博内容进行搜索。此外,虽有大量的论文研究微博数据
分析的算法,但对如何获取微博数据这一关键技术大多笼统描述,在技术上,
并不能提供有效的指导。
Python
提供了网站处理的标准库,隐藏了大多数的
具体细节,具有很快的开发速度。