python读取网页源代码_求助：关于python中urllib.urlopen读取网页源代码的问题

最新推荐文章于 2022-12-10 12:45:42 发布

weixin_39630762

最新推荐文章于 2022-12-10 12:45:42 发布

阅读量152

点赞数

文章标签： python读取网页源代码

展开全部

def getUrlRespHtml(url):

heads = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Charset':'GB2312,utf-8;q=0.7,*;q=0.7',

'Accept-Language':'zh-cn,zh;q=0.5',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Host':'John',

'Keep-Alive':'115',

'Referer':url,

'User-Agent':'Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.14) Gecko/20110221 Ubuntu/10.10 (maverick) Firefox/3.6.14'}

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())

urllib2.install_opener(opener)

req = urllib2.Request(url)

opener.addheaders = heads.items()

respHtml = opener.open(req).read()

return respHtml.decode('gbk').encode('utf-8')

给你一个2113返回页面数据的函数试5261试，这个主要是模拟了4102火狐浏览器去抓取数据，因为有些网站不希望1653机器人抓取他的数据，这是可能会出现没有返回值的情况。这个函数加了个头，来模拟浏览器浏览网页的行为。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39630762

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python读取网页源代码_求助：关于python中urllib.urlopen读取网页源代码的问题

展开全部def getUrlRespHtml(url):heads = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Charset':'GB2312,utf-8;q=0.7,*;q=0.7','Accept-Language':'zh-cn,zh;q=0.5','Cache-...
复制链接

扫一扫

python爬虫|urllib.request模块和urllib.parse模块使用

m0_60701922的博客

08-05

590

1 urllib.requst使用 1.1 基本介绍 1.2 urllib.request.urlopen 1.3 urllib.request.Request 2 urllib.parse 模块使用 2.1 urllib.parse.encode() 2.2 urllib.parse.quote()的使用 2.3 综合练习 3 爬虫百度贴吧练习 1. urllib requst使用 1.1 基本介绍（1）介绍： urllib 的 request 模块可以发送请求，返回 response。（2）用法：u

python爬虫学习笔记.urllib的使用

qq_51102350的博客

04-22

402

一，urllib四大模块 1，request：基本的HTTP请求模块，可以用来模拟发送请求。 2，error：异常处理模块。 3，parse：工具模块，提供URL处理方法。 4，robotparse：识别网站的robot.txt文件，判断该网站是否可以爬。二， ...

参与评论您还未登录，请先登录后发表或查看评论

python获取整个网页源码的方法

09-16

在本篇文章里小编给大家整理的是关于python获取整个网页源码的方法，需要的朋友们可以参考下。

利用Python抓取和解析网页（一）

Handsome_Engineer的专栏

03-22

1465

WebjxCom提示：对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档 　　上述代码的执行结果如下所示： 　　用Google搜索python时地址栏中URL的解析结果　　('http', 'www.google.com', '/search', '', 'hl=en&q=p

urllib获取网页源码

最新发布

12november的博客

12-10

537

urllib获取网页源码

Python获取网页源码

一个程序员的成长之路。。。

07-07

4316

Py2k中直接导入urllib2，就可以读取网页源码。import urllib2 content = urllib2.urlopen('http://www.baidu.com/').read() print(content) Py3k中取消了urllib2，需要导入urllib.request，等同于Py2k中的urllib2,不过需要转码才能够正确显示。import urllib.reques

获取网页源代码 python_python 获取网页源代码

weixin_39737233的博客

11-29

456

import re #正则表达式模块import urllib.requestimport time #时间模块import string #字符串模块def getHtml(url):f=urllib.request.urlopen(url)print(f.read())if name == '__main__':getHtml('http://www.baidu.com...

Python urllib、urllib2、httplib抓取网页代码实例

09-22

Python中的`urllib`, `urllib2`, 和`httplib`是用于网络数据请求和处理的库，它们在Web开发和爬虫项目中扮演着重要角色。这些库可以帮助开发者发送HTTP请求，获取响应，处理cookies，使用代理，以及处理重定向等问题...

urllib库（一）request模块：urlopen()，Request() 实现 get/post，urlretrieve() 下载网页文件，ProxyHandler()设置代理

Wjf7496的博客

11-18

1627

一、urllib库 python3内置的urllib库不需要安装直接import导入该库中主要模块有： urllib.request:用来打开和读取URL，是一个请求模块 urllib.error:包含了urllib.request产生的异常，是一个异常处理模块 urllib.parse:用来解析和处理URL，是一个解析模块 urllib.robotparse:用来解析页面的robots.txt urllib.response:响应模块 >>> help(urllib) Help on

Python3 模块1之 Urllib之 urllib.request

独化蓝翅鸟，越岭万昆仑

01-24

3121

什么是 Urllib 库？ urllib 库是 Python 内置的 HTTP 请求库。urllib 模块提供的上层接口，使访问 www 和 ftp 上的数据就像访问本地文件一样。有以下几种模块： 1.urllib.request 请求模块 2. urllib.error 异常处理模块 3. urllib.parse url 解析模块 4. urllib.robotp

1、python爬虫 request.urlopen请求网页获取源码

weixin_30684743的博客

03-20

555

# python3导入request包 from urllib import request import sys import io # 如果需要用print打印时，如果出现异常可以先设置输出环境 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') # 需要获取的url url = 'h...

Pycharm内置urllib.request模块使用方法加爬取贴吧任意输入内容的网页源码实例；

idgrown的博客

04-30

1435

一、## Request中的方法 #1.urllib.request.urlopen(urls) 请求的网页地址，返回的是网页响应对象； #2.read() 将相应返回的对象中内容取出来；并解码成字符串（读出来的是字节）此处注意的是：urlopen()中不支持重构USER-AGENT；所以我们可以使用 urllib.request.request(urls,header) 如下： #1添加us...

Python爬虫之Urllib

m0_60121089的博客

08-20

1538

urllib.request库主要用来获取网页的源码，需要找准是get请求还是post请求，分析合适的网络接口对应的请求头，数据等等。需要UA就需要请求对象的定制，需要动态cookie或者代理就需要更高级的请求头，用到handler

python3如何使用urllib2的类库获取网页的源码？

天元白手的博客

03-20

318

python3之后已经改版了，我们只需要换一个使用的方法就可以了如下所示： import urllib.request # 向指定URL发送请求并且返回服务器响应的类文件对象 response=urllib.request.urlopen("http://www.baidu.com") # 服务器返回的类文件支持python的对象文件操作 # read（）读取URL里的所有文件 html=resp...

Python爬虫1-获取指定网页源码