标题
引入头文件
import requests
from bs4 import BeautifulSoup
c保存requests.get得到的网站的html代码;
r=requests.get("http://www.pyclass.com/example.html",headers={"User-agent":'Mozilla/5.0(X11;Ubuntu;Linux x86_64;rv:61.0)Gecko/20100101 Firefox/61.0'}) #get
c=r.content
soup将c中代码转为html格式;
soup = BeautifulSoup(c,"html.parser")
#变为HTML代码
soup中存放html代码,soup.find_all()得到每个标签;
all为存放所有div标签+cities类的列表;
all=soup.find_all("div",{"class":"cities"}) #找到所有div 类名为cities
找到all中所有div标签的h2标签;
all[0].find_all("h2")#无需加入map #要用tag才行,不能对list操作
all[0].find_all("h2")[0].text #text可去掉头尾
遍历all,得到所有h2或p(paragraph);
for item in all:
print(item.find_all("p")[0].text) #p的得到paragraph