前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
以下文章来源于IT信息教室,作者:M先森看世界
数据的爬取
我们以上证50的股票为例,首先需要找到一个网站包含这五十只股票的股票代码,例如这里我们使用搜狐证券提供的列表。
https://q.stock.sohu.com/cn/bk_4272.shtml
可以看到,在这个网站中有上证50的所有股票代码,我们希望爬取的就是这个包含股票代码的表,并获取这个表的第一列。
爬取网站的数据我们使用 Beautiful Soup 这个工具包,需要注意的是,一般只能爬取到静态网页中的信息。
简单来说,Beautiful Soup 是 Python 的一个库,最主要的功能是从网页抓取数据。
像往常一样,使用这个库之前,我们需要先导入该库 bs4。除此之外,我们还需要使用 requests 这个工具获取网站信息,因此导入这两个库:
import bs4 as bs
import requests
我们定义一个函数 saveSS50Tickers() 来实现上证50股票代码的获取,获取的数据来自于搜狐证券的网页,使用 get() 方法获取给定静态网页的数据。
def saveSS50Tickers():
resp = requests.get('https://q.stock.sohu.com/cn/bk_4272.sh