import requests
from bs4 import BeautifulSoup
import pprint
import json
导入爬虫所需要的包
def download_all_htmls():
htmls=[]
for idx in range(1):
url=f"http://data.eastmoney.com/zjlx/00000{idx+1}.html"
print("craw html:",url)
r=requests.get(url)
if r.status_code!=200:
raise Exception("error")
htmls.append(r.text)
return htmls
我们需要访问需要爬虫的页面,因此我们应在jupyter中将所需要的网页下载下来。定义一个函数,在其中通过for循环将我们所需的全部页面都访问,如果r.status_code跟200不等时报错,否则将页面全部下载(r.status_code==200这是一个HTTP状态代码,意思是“OK”(例如:服务器成功地响应了HTTP请求))将其返回,以便后面的调用。
htmls=download_all_htmls()
将页面全部显示
import re
def parse_single_html(html):
soup=BeautifulSoup(html,'html.parser')
a1=soup.find_all("body")
datas1=[]
datas2=[]