打开网页
导入库
为了用Python爬取图中10*2的表格所对应的链接,用到requests, pandas库
import requests
from bs4 import BeautifulSoup
import pandas as pd
在网页源代码中找到表格所对应的代码,下载所有列表页面的HTML,用于后续的分析
def download_all_htmls():
"""
下载所有列表页面的HTML,用于后续的分析
"""
url = f"http://data.eastmoney.com/zjlx/000001.html"
print("craw html:", url)
r = requests.get(url,
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36 Edg/94.0.992