python爬虫学习第十六天——今天有点晚，请假一天

最新推荐文章于 2021-05-10 15:44:57 发布

可惜没有如果

最新推荐文章于 2021-05-10 15:44:57 发布

阅读量231

点赞数

分类专栏：学习笔记文章标签： python

本文链接：https://blog.csdn.net/qq_34194478/article/details/77018229

版权

学习笔记专栏收录该内容

45 篇文章 0 订阅

订阅专栏

今天回来的很晚了，写不了什么东西了，请假一天
看了接下来的内容，要写一个互联网爬虫，代码比之前的复杂而且只给出了大体思路（不能直接copy下来运行）今天时间不太够了，明天把今天的份儿补上

这部分的代码一次性写好比较吃力，于是我会一个功能一个功能的测试，每个测试就当做练习了

练习1 获取当前页面的所有内链接(测试版)

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import random
import datetime

dates = set()
random.seed(datetime.datetime.now())

# 获取当前页面的所有内链接(测试版)
def getInternalLinks(internalUrl):
    internalLINKS=[]
    html = urlopen(internalUrl)
    bsObj = BeautifulSoup(html)
    #所有以"/"开头的网页
    for link in bsObj.findAll("a", href=re.compile("^(?!(http://|https://|//)).")):
        if link.attrs['href'] is not None:
            if link.attrs['href'] not in internalLINKS:
                internalLINKS.append(link.attrs['href'])
    return internalLINKS


    pass
links=getInternalLinks('http://oreilly.com')
for link in links:
    print(link)

可惜没有如果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫学习第十六天——今天有点晚，请假一天

今天回来的很晚了，写不了什么东西了，请假一天看了接下来的内容，要写一个互联网爬虫，代码比之前的复杂而且只给出了大体思路（不能直接copy下来运行）今天时间不太够了，明天把今天的份儿补上
复制链接

扫一扫