2019-11-9 爬网页2--获取邮政网点信息（python 2.7-cookie）

最新推荐文章于 2023-02-15 12:50:59 发布

没人不认识我

最新推荐文章于 2023-02-15 12:50:59 发布

阅读量479

点赞数

分类专栏： python IT

本文链接：https://blog.csdn.net/weixin_42555985/article/details/102991431

版权

本文介绍了如何在Python 2.7环境下，通过创建和使用cookie文件来爬取邮政网点信息。首先，创建cookie.txt文件并保存登录后的cookie，接着修改代码读取cookie获取数据，然后进行数据清理，包括删除左侧索引、去除重复项和修改列名。最终通过数据清理，得到了整洁的Result.xlsx文件。

摘要由CSDN通过智能技术生成

通常，很多网站需要登录才能进行浏览，所以在爬取这些网站时，也需要进行登录，并拿取登录时的cookie

看到网站有篇文章《爬取邮政服务网点》使用了cookie爬网页，打算尝试一下。
我的环境是win10下的python2.7

step1.创建cookie.txt文件

获取cookie，并保存到cookie.txt（获取上海邮政网点）

# --coding:utf-8-- #
# cookie信息的加载与保存
import urllib
import urllib2
import cookielib
 
cookiejar = cookielib.MozillaCookieJar("cookie.txt")
cookiejar.load(ignore_discard=True)
handler = urllib2.HTTPCookieProcessor(cookiejar)
opener = urllib2.build_opener(handler)
 
resp = opener.open("http://iframe.chinapost.com.cn/jsp/type/institutionalsite/SiteSearchJT.jsp?community=ChinaPostJT&province=%E4%B8%8A%E6%B5%B7%E5%B8%82&pos=")
# ignore_discard=True 忽略被抛弃的东西（忽略过时的cookie信息）
cookiejar.save(ignore_discard=True)
 
for cookie in cookiejar:
    print cookie
print "Cookie保存成功".decode('utf8').encode('gbk')

运行后，报错如下

cookielib.LoadError: 'cookie.txt' does not look like a Netscape format cookies file

查了网上攻略，原来需要在cookie.txt文件开头添加一句

# Netscape HTTP Cookie File

再次运行后，成功。
cookie.txt文件内容如下

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a genera

最低0.47元/天解锁文章

没人不认识我

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2019-11-9 爬网页2--获取邮政网点信息（python 2.7-cookie）

看到网站有篇文章《爬取邮政服务网点》，打算尝试一下。我的环境是win10下的python2.7step1.创建cookie.txt文件获取cookie，并保存到cookie.txt（获取上海邮政网点）# --coding:utf-8-- ## cookie信息的加载与保存import urllibimport urllib2import cookielib cookiejar ...
复制链接

扫一扫

专栏目录