Python网页抓取、模拟登录

最新推荐文章于 2022-05-23 15:02:04 发布

weixin_30420305

最新推荐文章于 2022-05-23 15:02:04 发布

阅读量109

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/sinozhou/archive/2013/02/17/2914406.html

版权

用python抓取网页是非常简单的事，简单的几行代码就可以解决。。。这里稍微记录一下

需要引用的包有主要是 urllib2，urllib也可以引入，具体看代码

#-------------------------------------------------------------------------------

# Name: 模拟登录web

# Purpose:

#

# Author: huwei

#

# Created: 26/10/2010

# Copyright: (c) huwei 2010

# Licence: <your licence>

#-------------------------------------------------------------------------------

#!/usr/bin/env python

import time,urllib2,urllib

def main():

#登录博客园

loginCNblogs()

pass

#登录博客园

def loginCNblogs():

try:

#设置 cookie

cookies = urllib2.HTTPCookieProcessor()

opener = urllib2.build_opener(cookies)

urllib2.install_opener(opener)

parms = {"tbUserName":"用户名","tbPassword":"密码","__EVENTTARGET":"btnLogin","__EVENTARGUMENT":"",

"__VIEWSTATE":"/wEPDwULLTExMDE0MzIzNDRkGAEFHl9fQ29udHJvbHNSZXF1aXJlUG9zdEJhY2tLZXlfXxYBBQtjaGtSZW1lbWJlcmcJekJlt5rFwfnjeMMnX9V58Xhg",

"__EVENTVALIDATION":"/wEWBQKit6iCDALyj/OQAgK3jsrkBALR55GJDgKC3IeGDK6TQlRlirS2Zja1Lmeh02u4XMwV",

"txtReturnUrl":"http://bboy.cnblogs.com"}

loginUrl = "http://passport.cnblogs.com/login.aspx"

login = urllib2.urlopen(loginUrl,urllib.urlencode(parms))

#print(unicode(login.read(),"utf8"))

#显示配置页面

avatar = urllib2.urlopen("http://home.cnblogs.com/set/avatar/")

#print(avatar.read().decode("utf8"))

except Exception,e:

print(e)

pass

if __name__ == '__main__':

main()

获取网页很简单直接 urllib2.urlopen(url).read() 就可以得到网页源码

这里是抓取登录后的页面，所有开头需要设置cookie

cookies = urllib2.HTTPCookieProcessor()

opener = urllib2.build_opener(cookies)

urllib2.install_opener(opener)

设置完 cookie以后再使用 urllib2.urlopen()方法就可以带上你登录成功的cookie了

转载于:https://www.cnblogs.com/sinozhou/archive/2013/02/17/2914406.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。