python获取所有链接保存到数据表并依次打开

本文介绍了一个Python脚本,用于从给定的网页URL开始,抓取所有链接并将其存储到SQLite3数据库中。链接通过正则表达式过滤,然后更新为相对完整的URL。此外,脚本可以从数据库中读取链接并使用浏览器打开。涉及的库包括sgmllib、urllib、re、sqlite3和subprocess。
摘要由CSDN通过智能技术生成

python获取网页上所有链接,并保存到sqlite3数据表中,并用浏览器打开。如果该表已存在,则直接从表中读取链接并打开。

表名中去掉开头"http://", 结尾"/", 端口号,替换中间字符".", "/"为"_"

 

用到的python库:

sgmllib,urllib网页有关

re正则表达式

sqlite3数据表

subprocess子进程

 

 

 

#!/usr/bin/env python
#-*-coding:utf-8 -*-

from sgmllib import SGMLParser
import urllib,re
import sys, os, string, time
import sqlite3
import subprocess, signal

class UrlList(SGMLParser):
    def reset(self):
        self.urls=[]
        SGMLParser.reset(self)
    def start_a(self,attrs):
        href=[v for k,v in attrs if k=='href']
        if href:
            self.urls.extend(href)

def get_urls(url):
    try:
        usock=urllib.urlopen(url)
    except:
        print "

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值