python网页解析器

最新推荐文章于 2024-05-22 14:12:33 发布

Great1414

最新推荐文章于 2024-05-22 14:12:33 发布

阅读量878

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/weixin_41512727/article/details/79167312

版权

python爬虫专栏收录该内容

8 篇文章 0 订阅

订阅专栏

python的网页解析器;

正则表达式

html.parser

Beautiful Soup（可以使用html.parser 和lxml两种解析器)

lxml

步骤：未测试

from bs4 import BeautifulSoup #导入模块
def htmlget(great):
    with open(great) as sm: #打开文件
        soup = beautifulsoup(sm, 'html.parser', from_encoding = 'utf-8') #解析文件
    urlget = soup.find_all('a') #获取url
    for url in urlget: #输出url
        print(url)
if __name == '__main__': #主函数
    htmlget(great = 'smile.txt')

以上为初步了解网页解析器，代码未经测试。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Great1414

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
python网页解析器

python的网页解析器;正则表达式html.parserBeautiful Soup（可以使用html.parser 和lxml两种解析器)lxml步骤：未测试from bs4 import BeautifulSoup #导入模块def htmlget(great): with open(great) as sm: #打开文件 soup = b
复制链接

扫一扫