python 一个HTML文件，找出正文和链接

最新推荐文章于 2024-07-29 02:32:41 发布

zdxdxd

最新推荐文章于 2024-07-29 02:32:41 发布

阅读量3.6k

点赞数 1

分类专栏： python 文章标签： python html

本文链接：https://blog.csdn.net/qq_35614920/article/details/76746902

版权

python 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

Python 练习册，每天一个小程序

第 0008 题：一个HTML文件，找出里面的正文。

第 0009 题：一个HTML文件，找出里面的链接。

0000-0010题链接

代码如下：

# coding=utf-8
from bs4 import BeautifulSoup
def sechBodyUrl(path):
    with open(path,encoding='utf-8') as fp:
        text = BeautifulSoup(fp, 'lxml')
        urls = text.findAll('a')
        for u in urls:
            print(u['href'])
        content = text.get_text().strip('\n')
    return content

sechBodyUrl('0007.html')
#print(searchBody('0007.html'))