![5f922748864a17ef548f4e8a8427b6e4.gif](https://i-blog.csdnimg.cn/blog_migrate/dd10452ed5100fc0d9be4420d9e01908.gif)
点击上方蓝色字体,关注我们
大家好,基于Python的数据科学实践课程又到来了,大家尽情学习吧。本期内容主要由智亿同学与政委联合推出。
前面几章大家学习了如何利用Python处理与清洗数据,如何探索性数据分析,以及如何利用统计与机器学习方法进行建模。但是,很明显我们忽视了一个最原始的问题:数据从何而来。没有数据,这就好比,你学了十八般武艺,可是没有让你施展的地方一样难受。大家不要忘记,提出问题,采集数据,然后才是你的十八般武艺的施展。本章将会讲解Python的爬虫模块,目的是让你学习的Python技术有用武之地。
爬虫,可能同学们都有所“耳闻”,但是对爬虫是什么还不甚了解。
爬虫,全称“网络蜘蛛”。爬虫能干什么呢?一言以蔽之,替代人工采集数据。比如,某吃货想挑选出西安全城的火锅店评分最高的前10家,怎么办呢?首先,得寻找一家在线点评网站,如百度糯米(网站截图如下所示)。
图7-1 百度糯米网站截图
每页25条数据,一共有8页,共计176条数据。
最原始的办法是,勤劳的鼠标左键 + ctrl+c 到excel中,再按评分排序。在数据量少、字段少的情况下,这么做的弊端可能并不明显。但是,现在如果需要店名、评分、人均、地址、优惠活动、营业时间、买家评论等等,恐怕再勤劳的同学也会勇敢的说“不”。
这时候爬虫就有了用武之地——自动化采集网页数据,存储成结构化的数据便于后续分析。数据采集,往往是数据科学实践的第一步——毕竟,巧妇难为无米之炊嘛!
从本章开始,让我们一起来揭开爬虫“神秘的面纱”。学习完本章后,希望同学们能在遇到这类机械性的体力劳动面前,勇敢的说“不”!
注意,本书定位是“入门+实战”,旨在让读者能够快速熟悉、快速上手。因此,只讲解最核心的知识点和函数使用,即使不了解背后原理,应对日常的数据采集也绰绰有余。对原理感兴趣的同学,请自行学习相关文档。
7.1 初级篇—单页面静态爬虫![94c86a7856f73a486b725e3da73d63cb.gif](https://i-blog.csdnimg.cn/blog_migrate/88c1dd3355eab1889260bdf8ca8ce1a4.gif)
本小节将学会:
● 了解网络请求的基本原理;
● 学习如何使用requests对网站发起请求;
● 了解网页的基本构成;
● 学习如何使用BeautifulSoup解析网页;
● 学习如何将解析结果存入文件;
学完以上,我们就能