互联网上的信息如此之多,任何人穷其一生也无法全部消化吸收。你需要的不是访问这些信息,而是一种可伸缩的方式,可以用来收集、组织和分析这些信息。你需要的是 Web 爬取。Web 爬取可以自动提取数据,并以一种让你可以轻松理解的格式显示出来。Web 爬取可以用于许多场景,但本教程将重点介绍它在金融市场中的应用。
互联网上的信息如此之多,任何人穷其一生也无法全部消化吸收。你需要的不是访问这些信息,而是一种可伸缩的方式,可以用来收集、组织和分析这些信息。
你需要的是 Web 爬取。
Web 爬取可以自动提取数据,并以一种让你可以轻松理解的格式显示出来。Web 爬取可以用于许多场景,但本教程将重点介绍它在金融市场中的应用。
私信博主001 领取完整项目代码!
如果你是一名狂热的投资者,每天获取收盘价可能是一件比较痛苦的事情,尤其是当你需要的信息需要查看多个网页才能找到的时候。我们将通过构建一个网络爬取器,从互联网上自动检索股票指数,简化数据提取。
准 备
我们将使用 Python 作为爬取语言,并使用一个简单而强大的库 BeautifulSoup。
- 对于 Mac 用户而言,OS X 预装了 Python。打开终端,输入 python --version。你应该可以看到 Python 的版本是 2.7.x。
- 对于 Windows 用户,请通过官方网站安装 Python。
接下来,我们需要使用 pip(一个 Python 包管理工具)获取 BeautifulSoup 库。
在终端输入:
easy_install pip pip install BeautifulSoup4
注意:如果你运行上述命令失败,试下在每一行前面加上 sudo。
基本概念
在一头扎进代码之前,让我们先了解下 HTML 的基本概念和一些爬取规则。
HTML 标签
如果你已经了解了 HTML 标签,大可以跳过这部分。
<!DOCTYPE html><html> <head> </head> <body> <h1> First Scraping </h1> <p> Hello World </p> <body></html>
这是 HTML