用Python快速编写网站遍历程序

本文介绍了如何使用Python进行网站遍历,包括登陆网站获取Cookie、解析HTML内容、遍历网页标签和属性、转换相对路径为绝对路径、处理超链接以及将HTML转换为纯文本。示例代码详细展示了正则表达式在爬虫中的应用。
摘要由CSDN通过智能技术生成

 

 

前言


Python是一个相当有意思的语言,当我一看到她就喜欢上了她,她实在是太棒了!~
这是我学习python写的第一个程序,就算是练练手吧。
我现在把编写的过程记录下来,以后忘记了可以在回来看看,呵呵,同时也希望给各位跟我一样的初学者一个参考,有错误地方希望大大们帮我指出来一下,不要笑我啊!

 


 

 

1、登陆
在这里遇到的第一个问题就是某些网站是需要登陆的
于是就产生了LoginWebsite这个函数,他使用urllib2的urlopen方式登录网站,并获取Cookie。(当然,这里也可以改为获取Session,具体情况具体讨论吧)。

def LoginWebsite(longinURL,params):
    """
    Login websie and get it's Cookie      /n/r
    longinURL:登陆网址        
    如:
http://www.target.com/upload/logging.php?action=login
    params:     传入的参数
    如 username=DeamonTX&password=123456&loginsubmit=%B4%A3%A5%E6
    """
    cookiejar=cookielib.CookieJar()
    cookie=""   
    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
    urllib2.install_opener(opener)
    try:   
        urllib2.urlopen(longinURL, params )
    except:
        return cookie
    for c in cookiejar:
        cookie+=c.name+'='+c.value+';'
return cookie[0:-2]   

来看看这个函数的实现吧:
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
可以将一个CookieJar安装到opener上,于是,在使用urlopen后,网页所产生的cookie就会传入cookiejar。
Cookiejar是由元组组成的构成的,这里是当时我所获得的一个cookiejar:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值