摘
要:该文通过剖析豆瓣电影网页源代码,借助
Python
性能完备的标准库、强大的第三
方库
requests
、
BeautifulSoup
及
selenium
等,编写程序快速实现豆瓣电影用户模拟登录、指定
数据的抓取和保存。该文研究为培养数据挖掘和分析能力奠定了基础。
关键词:数据爬取
;Python;
网络爬虫
1
前言
现在已经是大数据和人工智能的时代,信息数据的价值显得越来越重要,而为了从海量芜
杂的信息数据中获得需要的信息,需要对数据进行挖掘与分析。在进行大数据分析或数据挖掘
时,我们能够去一些比较大型的官方站点下载数据源。然而这些取得数据的模式,有时很难精
确满足对数据的需求,而通过自行手动从互联网中去查找这些数据,消耗的精力和时间又太
多。这时就能够使用爬虫技术,自动地从互联网中查找满足特定需要的数据内容,并将这些信
息内容爬取回来作为我们的数据源,以便下步进行数据分析和挖掘。由此可见在随着对大数据
获取需求的增大,网络爬虫的地位会越来越凸显。文章通过利用
Python
自带的标准库,对网
络爬虫原理进行了研究并实现了豆瓣电影网站上数据的提取,为接下来进行数据可视化显示和