import requests from bs4 import BeautifulSoup r = requests.get('https://baidu.com') html = r.text # 爬虫得到网站的html内容 soup = BeautifulSoup(html, 'html.parser') # 标准解析库 print(soup.title.string) # 输出标题,前提是标题必须存在 print(soup.body) # 输出正文 print(soup.head) # 输出head的内容 print(soup.a) # 输出a开头的内容 print(soup.a['name']) # 输出a的名字 print(soup.a.string) # 输出a的内容 print(soup.prettify()) # 输出html内容 for u in soup.findAll('a'): # 打印链接 print(u['href']) for j in soup.findAll('img'): # 打印链接 print(j['src'])
一个HTML文件,找出里面的正文和链接
最新推荐文章于 2023-05-25 19:19:31 发布