2019-11-9 爬网页2--获取邮政网点信息(python 2.7-cookie)

本文介绍了如何在Python 2.7环境下,通过创建和使用cookie文件来爬取邮政网点信息。首先,创建cookie.txt文件并保存登录后的cookie,接着修改代码读取cookie获取数据,然后进行数据清理,包括删除左侧索引、去除重复项和修改列名。最终通过数据清理,得到了整洁的Result.xlsx文件。
摘要由CSDN通过智能技术生成

通常,很多网站需要登录才能进行浏览,所以在爬取这些网站时,也需要进行登录,并拿取登录时的cookie

看到网站有篇文章《爬取邮政服务网点》使用了cookie爬网页,打算尝试一下。
我的环境是win10下的python2.7

step1.创建cookie.txt文件

获取cookie,并保存到cookie.txt(获取上海邮政网点)

# --coding:utf-8-- #
# cookie信息的加载与保存
import urllib
import urllib2
import cookielib
 
cookiejar = cookielib.MozillaCookieJar("cookie.txt")
cookiejar.load(ignore_discard=True)
handler = urllib2.HTTPCookieProcessor(cookiejar)
opener = urllib2.build_opener(handler)
 
resp = opener.open("http://iframe.chinapost.com.cn/jsp/type/institutionalsite/SiteSearchJT.jsp?community=ChinaPostJT&province=%E4%B8%8A%E6%B5%B7%E5%B8%82&pos=")
# ignore_discard=True 忽略被抛弃的东西(忽略过时的cookie信息)
cookiejar.save(ignore_discard=True)
 
for cookie in cookiejar:
    print cookie
print "Cookie保存成功".decode('utf8').encode('gbk')

运行后,报错如下

cookielib.LoadError: 'cookie.txt' does not look like a Netscape format cookies file

查了网上攻略,原来需要在cookie.txt文件开头添加一句

# Netscape HTTP Cookie File

再次运行后,成功。
cookie.txt文件内容如下

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a genera
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值