用Python快速编写网站遍历程序_pycharm自动化对网页选项遍历-CSDN博客

本文介绍了如何使用Python进行网站遍历，包括登陆网站获取Cookie、解析HTML内容、遍历网页标签和属性、转换相对路径为绝对路径、处理超链接以及将HTML转换为纯文本。示例代码详细展示了正则表达式在爬虫中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：

Python是一个相当有意思的语言，当我一看到她就喜欢上了她，她实在是太棒了！~
这是我学习python写的第一个程序，就算是练练手吧。
我现在把编写的过程记录下来，以后忘记了可以在回来看看，呵呵，同时也希望给各位跟我一样的初学者一个参考，有错误地方希望大大们帮我指出来一下，不要笑我啊！

1、登陆
在这里遇到的第一个问题就是某些网站是需要登陆的
于是就产生了LoginWebsite这个函数，他使用urllib2的urlopen方式登录网站，并获取Cookie。(当然，这里也可以改为获取Session，具体情况具体讨论吧)。

def LoginWebsite(longinURL,params):
    """
    Login websie and get it's Cookie      /n/r
    longinURL：登陆网址
    如：http://www.target.com/upload/logging.php?action=login
    params:     传入的参数
    如 username=DeamonTX&password=123456&loginsubmit=%B4%A3%A5%E6
    """
    cookiejar=cookielib.CookieJar()
    cookie=""
    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
    urllib2.install_opener(opener)
    try:
        urllib2.urlopen(longinURL, params )
    except:
        return cookie
    for c in cookiejar:
        cookie+=c.name+'='+c.value+';'
return cookie[0:-2]

来看看这个函数的实现吧：
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
可以将一个CookieJar安装到opener上，于是，在使用urlopen后，网页所产生的cookie就会传入cookiejar。
Cookiejar是由元组组成的构成的，这里是当时我所获得的一个cookiejar：

[Cookie(version=0, name='cdb_auth', value='bm13KO%2BSYOK3HqtzAqS01vRxJWvx