一个HTML文件,找出里面的正文和链接

import requests
from bs4 import BeautifulSoup


r = requests.get('https://baidu.com')
html = r.text  # 爬虫得到网站的html内容
soup = BeautifulSoup(html, 'html.parser')  # 标准解析库

print(soup.title.string)  # 输出标题,前提是标题必须存在
print(soup.body)  # 输出正文
print(soup.head)  # 输出head的内容
print(soup.a)  # 输出a开头的内容
print(soup.a['name'])  # 输出a的名字
print(soup.a.string)  # 输出a的内容
print(soup.prettify())    # 输出html内容

for u in soup.findAll('a'):  # 打印链接
    print(u['href'])

for j in soup.findAll('img'):  # 打印链接
    print(j['src'])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值