python爬虫（2.获取网页外链与内链）

最新推荐文章于 2022-11-22 15:48:12 发布

dawen1937

最新推荐文章于 2022-11-22 15:48:12 发布

阅读量1.7k

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/dawen1937/article/details/53929592

版权

from urllib.request import urlopen
from urllib.parse import urlparse
from bs4 import BeautifulSoup
import re
import datetime
import random

pages = set()
random.seed(datetime.datetime.now())

#获取页面内链
def getInternalLinks(bsObj,includeUrl):
    includeUrl=urlparse(includeUrl).scheme+"://"+urlparse(includeUrl).netloc
    internalLinks=[]
    for link i

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dawen1937

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python爬虫（2.获取网页外链与内链）

from urllib.request import urlopenfrom urllib.parse import urlparsefrom bs4 import BeautifulSoupimport reimport datetimeimport randompages = set()random.seed(datetime.datetime.now())#获取页面内链
复制链接

扫一扫