python获取所有链接保存到数据表并依次打开

最新推荐文章于 2023-02-11 14:24:23 发布

heihuifeng

最新推荐文章于 2023-02-11 14:24:23 发布

阅读量3.9k

点赞数

分类专栏： python 文章标签： python url table sqlite subprocess 正则表达式

本文链接：https://blog.csdn.net/heihuifeng/article/details/6574216

版权

本文介绍了一个Python脚本，用于从给定的网页URL开始，抓取所有链接并将其存储到SQLite3数据库中。链接通过正则表达式过滤，然后更新为相对完整的URL。此外，脚本可以从数据库中读取链接并使用浏览器打开。涉及的库包括sgmllib、urllib、re、sqlite3和subprocess。

摘要由CSDN通过智能技术生成

python获取网页上所有链接，并保存到sqlite3数据表中，并用浏览器打开。如果该表已存在，则直接从表中读取链接并打开。

表名中去掉开头"http://", 结尾"/", 端口号，替换中间字符".", "/"为"_"

用到的python库：

sgmllib，urllib网页有关

re正则表达式

sqlite3数据表

subprocess子进程

#!/usr/bin/env python
#-*-coding:utf-8 -*-

from sgmllib import SGMLParser
import urllib,re
import sys, os, string, time
import sqlite3
import subprocess, signal

class UrlList(SGMLParser):
    def reset(self):
        self.urls=[]
        SGMLParser.reset(self)
    def start_a(self,attrs):
        href=[v for k,v in attrs if k=='href']
        if href:
            self.urls.extend(href)

def get_urls(url):
    try:
        usock=urllib.urlopen(url)
    except:
        print "

最低0.47元/天解锁文章

heihuifeng

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python获取所有链接保存到数据表并依次打开

python获取网页上所有链接，并保存到sqlite3数据表中，并用浏览器打开。如果该表已存在，则直接从表中读取链接并打开。表名中去掉开头"http://", 结尾"/", 端口号，替换中间字符".", "/"为"_" 用到的python库：sgmllib，urllib网页有关re正则表达式sqlite3数据表subprocess子进程 #!/usr
复制链接

扫一扫

专栏目录