一个HTML文件，找出里面的正文和链接

最新推荐文章于 2023-05-25 19:19:31 发布

minhoag

最新推荐文章于 2023-05-25 19:19:31 发布

阅读量347

点赞数

文章标签： python html

本文链接：https://blog.csdn.net/minhoag/article/details/107101860

版权

import requests
from bs4 import BeautifulSoup


r = requests.get('https://baidu.com')
html = r.text  # 爬虫得到网站的html内容
soup = BeautifulSoup(html, 'html.parser')  # 标准解析库

print(soup.title.string)  # 输出标题，前提是标题必须存在
print(soup.body)  # 输出正文
print(soup.head)  # 输出head的内容
print(soup.a)  # 输出a开头的内容
print(soup.a['name'])  # 输出a的名字
print(soup.a.string)  # 输出a的内容
print(soup.prettify())    # 输出html内容

for u in soup.findAll('a'):  # 打印链接
    print(u['href'])

for j in soup.findAll('img'):  # 打印链接
    print(j['src'])