工欲善其事,必先利其器
//
- 前言 -
◆ ◆ ◆ ◆
今天,小咖将开启爬虫这一工具的学习。今天来讲讲如何利用爬虫简单地爬去网页所需数据。
- 爬虫简介 -
◆ ◆ ◆ ◆
由于爬虫涉及较多网络专用术语,而小咖也仅是单纯一金融民工,因此这里就直接将网络上对于这些关键术语的定义展示给大家,如果感兴趣大家可以自行深度学习,而小咖的Python系列将主要专注于各类python工具的金融应用。
**爬虫:**是一个可以自动化抓取网页、app内容的工具。其中,我们将讲到的是目前应用最广泛的搜索引擎网络蜘蛛,在python中录入网址既可以获取网页数据。
**URL:**是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。URL的格式由三部分组成:
(1)第一部分是协议:http/https/ftp/ws等等。
(2)第二部分是存有该资源的主机IP地址(有时也包括端口号),简单说就是网站的域名。
(3)第三部分是主机资源的具体地址,如目录和文件名:即网站的二级目录和信息列表页、资源页等等。
**Requests库:**requests实现了HTTP协议中绝大部分功能