Python实现遍历url

最新推荐文章于 2023-05-12 10:09:38 发布

奋斗的雨霖铃

最新推荐文章于 2023-05-12 10:09:38 发布

阅读量7.2k

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/guigui578826243/article/details/51580699

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

# coding:utf-8
import re
import requests
import xlrd
from xlutils.copy import copy

class Traversal_Web:
def __init__(self):
    pass
def url(self,path,sites):
    # 获取网页内容
    #pqyload = {name:source}
    #site="http://XXX"
    i=0
    r = requests.get(sites)
    data = r.text
    # 利用正则查找所有连接
    link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)
    for url in link_list:
        i=i+1
        if url.startswith("http://") or url.startswith("https://"):
            r = requests.get(url)
            url=r.url
            status=r.status_code
        else:
            url = url
            status='xxx'
        self.write_xls(path,url,i,0)
        self.write_xls(path,status,i,1)

def write_xls(self,path,text,nrow,ncol):
    rb=xlrd.open_workbook(path)
    rs = rb.sheet_by_index(0)
    wb = copy(rb)
    ws = wb.get_sheet(0)
    ws.write(nrow, ncol,text)
    wb.save(path)

优惠劵

奋斗的雨霖铃

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python实现遍历url

# coding:utf-8import reimport requestsimport xlrdfrom xlutils.copy import copyclass Traversal_Web:def __init__(self): passdef url(self,path,sites): # 获取网页内容 #pqyload = {name:source}
复制链接

扫一扫