python里的get_page函数

最新推荐文章于 2021-05-25 13:16:20 发布

he_wolf

最新推荐文章于 2021-05-25 13:16:20 发布

阅读量6.3k

点赞数 1

分类专栏：学习

本文链接：https://blog.csdn.net/he_wolf/article/details/14639757

版权

学习专栏收录该内容

39 篇文章 0 订阅

订阅专栏

今天在公开课里看到直接用get_page函数来获取网页的代码

可自己尝试了下发旋无论是在python2还是python3里头都并不是预先设定好的函数

解决方案如下：

import urllib2
def get_page(url):
    return urllib2.urlopen(url).read()

def get_next_target(page):
    start_link = page.find('<a href=')
    if start_link == -1:
        return None, 0
    start_quote = page.find('"', start_link)
    end_quote = page.find('"', start_quote + 1)
    url = page[start_quote + 1:end_quote]
    return url, end_quote

def print_all_links(page):
    while True:
        url, endpos = get_next_target(page)
        if url:
            print url
            page = page[endpos:]
        else:
            break

print_all_links(get_page('http://xkcd.com/353'))