网站目录遍历，爬取网页链接

最新推荐文章于 2024-07-16 15:19:31 发布

qq_41239950

最新推荐文章于 2024-07-16 15:19:31 发布

阅读量4.5k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_41239950/article/details/89716381

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

import requests

import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver

#爬取地址
url = 'http://www.baidu.com'
r = requests.get(url)
r.encoding = 'gb2312'

# 利用 re 
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", r.text)
for link in matchs:
    print(link)

print()

# 利用 BeautifulSoup4 （DOM树）
soup = BeautifulSoup(r.text, 'lxml')
for a in soup.find_all('a'):
    link = a['href']
    print(link)

print()

# 利用 lxml.etree （XPath）
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
    print(link)

print()

# 利用selenium
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
    print(link.get_attribute("href"))
driver.close()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_41239950

关注关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
网站目录遍历，爬取网页链接

import requestsimport refrom bs4 import BeautifulSoupfrom lxml import etreefrom selenium import webdriver#爬取地址url = 'http://www.baidu.com'r = requests.get(url)r.encoding = 'gb2312'# 利用 re ...
复制链接

扫一扫