Python练习册，每天一个小程序（十）

最新推荐文章于 2020-12-08 21:50:32 发布

逝水年华_往前走就好

最新推荐文章于 2020-12-08 21:50:32 发布

阅读量200

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/oShiShuiNianHua1234/article/details/103344807

版权

python 专栏收录该内容

22 篇文章 2 订阅

订阅专栏

第 0009 题： 一个HTML文件，找出里面的链接。

解答，这个问题的解答同上一题解答方式,使用soup获取所有的href链接

#encoding:utf-8

import requests
from bs4 import BeautifulSoup
import urllib.request

def get_page(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "lxml")
    return soup

def get_page_urllib(url):
    resp = urllib.request.urlopen(url)
    soup = BeautifulSoup(resp.read(), "html.parser")
    return soup

def get_page_links(soup):
    links = []
    page_links = soup.find_all("link")
    for link in page_links:
        links.append(link.get("href"))
    return links

soup = get_page("https://github.com/Yixiaohan/show-me-the-code")
links = get_page_links(soup)
print(links)