python爬取网页urlib_Python3爬虫之urllib携带cookie爬取网页的方法

最新推荐文章于 2024-05-02 21:47:38 发布

weixin_39926678

最新推荐文章于 2024-05-02 21:47:38 发布

阅读量130

点赞数

文章标签： python爬取网页urlib

如下所示：

import urllib.request

import urllib.parse

url = 'https://weibo.cn/5273088553/info'

#正常的方式进行访问

# headers = {

# 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'

# }

# 携带cookie进行访问

headers = {

'GET https':'//weibo.cn/5273088553/info HTTP/1.1',

'Host':' weibo.cn',

'Connection':' keep-alive',

'Upgrade-Insecure-Requests':' 1',

'User-Agent':' Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36',

'Accept':' text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

# 'Referer: https':'//weibo.cn/',

'Accept-Language':' zh-CN,zh;q=0.9',

'Cookie':' _T_WM=c1913301844388de10cba9d0bb7bbf1e; SUB=_2A253Wy_dDeRhGeNM7FER-CbJzj-IHXVUp7GVrDV6PUJbkdANLXPdkW1NSesPJZ6v1GA5MyW2HEUb9ytQW3NYy19U; SUHB=0bt8SpepeGz439; SCF=Aua-HpSw5-z78-02NmUv8CTwXZCMN4XJ91qYSHkDXH4W9W0fCBpEI6Hy5E6vObeDqTXtfqobcD2D32r0O_5jSRk.; SSOLoginState=1516199821',

}

request = urllib.request.Request(url=url,headers=headers)

response = urllib.request.urlopen(request)

#输出所有

# print(response.read().decode('gbk'))

#将内容写入文件中

with open('weibo.html','wb') as fp:

fp.write(response.read())

以上这篇Python3爬虫之urllib携带cookie爬取网页的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

本文标题: Python3爬虫之urllib携带cookie爬取网页的方法

本文地址: http://www.cppcns.com/jiaoben/python/248625.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39926678

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python3---urllib模块的使用，发送post&get请求&获取cookie

Alien-Hu

07-01

1万+

urllib的来源介绍在Python2版本中，有urllib和urlib2两个库可以用来实现request的发送。而在Python3中，已经不存在urllib2这个库了，统一为urllib。Python3 urllib库官方链接 https://docs.python.org/3/library/urllib.html urllib的包含的模块 urllib中包括了四个模块，包括： ...

python-快速使用urllib爬取网页（2-Headers属性）

沐雨金鳞

12-23

2137

有时候，我们无法爬取一些网页，出现403错误，因为这些网页为了防止别人恶意采集进行了一些反爬虫设置可是我们想爬取这些信息，怎么办？设置一些Headers属性，模拟成浏览器去访问这些网站，就解决了这个问题了首先我们要获得所要爬取网页的User-Agent信息在所要爬取的网页的地址栏里输入 about:version 我们就找到了用户代理的字符串信息我们将其复制出来形式如下所示：Mo

参与评论您还未登录，请先登录后发表或查看评论

Python3中urllib使用介绍

最新发布

2401_84562810的博客

05-02

1715

pythonkw = input(‘请输入要翻译的英文单词：’)data = {‘kw’: kw# 由于百度翻译没有反扒措施，因此可以不写请求头‘referer’: ‘百度翻译-200种语言互译、沟通全世界！’,

python爬取网站大数据_[Python]爬虫抓取大数据职位数据

weixin_39623050的博客

12-05

741

《纽约时报》2012年2月的一篇专栏中所称，“大数据”时代已经降临，在商业、经济及其他领域中，决策将日益基于数据和分析而作出，而并非基于经验和直觉。随大数据时代一起来来临的，是越来越多的大数据工作岗位。在此，我们利用Python编程，抓取智联招聘、51job等网站上面有关大数据的工作岗位数据。爬虫基础知识数据来源网络爬虫的数据一般都来自服务器的响应结果，通常有html和json数据等，这两种数据也...

python爬虫 - Urllib库及cookie的使用

皮皮blog

08-23

3万+

怎样扒网页？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS。如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的。扒网页的栗子 import urllib2 response = urllib2.ur

python 爬虫 urllib，自动保存cookie

SHUYANSAMA的博客

08-16

811

介绍：爬虫，就是一段自动抓取互联网信息的程序，可从互联网上抓取对我们有价值的数据。常用的库有：urllib，beautifulsoup等 urllib基于请求返回文本信息进行解析，beautifulsoup基于界面标签进行解析这里详细说明下urllib的用法。 python2和python3对应的urllib库不同，分别对应urllib2和urllib。具体使用可按版本进行搜索。本文以python3对应urllib来说明应用场景及分析方法：我需要在某系统内查询相应的信息，并获取结果。

Python3中关于cookie的创建与保存

qq_39138295的博客

08-04

5514

1.cookie的作用 cookie 是指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据，就像有些网站上的一些数据是需要登录后才能看得到，那么想抓取某个页面内容，就需要用到cookie来模拟登陆了。在用cookie模拟登陆的时候，需要用到python中的CookieJar，CookieJar中有一些子类，例如： FileCookieJar,LWPCookie...

Python从入门到入土-网络爬虫(urllib、正则表达式)

write less , do more

09-23

1988

Python网络爬虫

urllib，urllib3，爬虫一般开发流程

xiaogeldx的博客

01-10

2504

urllib urllib是一个用来处理网络请求的Python标准库，包含四个模块 urllib.requests：请求模块，用于发起网络请求 urllib.parse：解析模块，用于解析URL urllib.error：异常处理模块，用于处理request引起的异常 urllib.robotparse：用于解析robots.txt文件 urllib.request模块 request...

Python网络请求urllib和urllib3详解

weixin_41334453的博客

05-21

545

1. 简介 urllib是Python中请求url连接的官方标准库，在Python2中主要为urllib和urllib2，在Python3中整合成了urllib。而urllib3则是增加了连接池等功能，两者互相都有补充的部分。 2. urllib urllib作为Python的标准库，基本上涵盖了基础的网络请求功能。 2.1. urllib.request urllib中，request这个模块...

Python3爬虫之urllib携带cookie爬取网页

haeasringnar的博客

01-17

1万+

import urllib.request import urllib.parse url = 'https://weibo.cn/5273088553/info' #正常的方式进行访问 # headers = { # 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like

Python标准库—urllib和urllib3

薛定谔的猫-前端领域

06-04

4万+

一、urllib urllib是Python中请求url连接的官方标准库，在Python2中主要为urllib和urllib2，在Python3中整合成了urllib。urllib中一共有四个模块，分别如下： request：主要负责构造和发起网络请求,定义了适用于在各种复杂情况下打开 URL (主要为 HTTP) 的函数和类 error：处理异常 parse：解析各种数据格式 rob...

Py之urllib2：Python库之urllib、urllib2、urllib3系列简介、安装、使用方法之详细攻略

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

05-28

1万+

Py之urllib2：Python库之urllib、urllib2、urllib3系列简介、安装、使用方法之详细攻略目录 urllib2简介 urllib2安装 urllib2使用方法 urllib2简介 urllib和urllib2之间PK 1、在python中，urllib和urllib2不可相互替代的。整体来说，urllib2是urllib的增强，但...

Python3.x中urllib模块详解及爬虫应用

"本文主要介绍了Python爬虫开发中urllib模块的详细使用方法与实例，讲解了Python2.x与Python3.x中urllib库的差异，并涵盖了urllib的主要功能，包括网页请求、URL解析、代理和cookie设置、异常处理以及robots.txt解析...