requests获取保存网页代码

最新推荐文章于 2024-07-21 10:58:48 发布

「已注销」

最新推荐文章于 2024-07-21 10:58:48 发布

阅读量4.9k

点赞数 1

分类专栏： python基础文章标签： python

本文链接：https://blog.csdn.net/a__rong/article/details/78301829

版权

本文介绍了如何使用Python的requests库获取网页源代码并存储到本地文件中。通过示例代码详细解释了请求网页、处理编码问题以及如何将内容写入文件。此外，还展示了如何读取和保存文件，以及如何循环获取多页内容。

摘要由CSDN通过智能技术生成

Python，分享一些初学者的心得与君共勉。
内容主要是如何使用python去获取网页的源代码并存储到本地文件中
先上代码：

import requests

def gethtml(url):
    req=requests.get(url)
    html=req.text
    print(html)
url = 'http://www.youku.com'
gethtml(url)

第1行导入了必要的模块
第2至5行定义了一个函数，目的是向指定url发送http请求，并将网页的源代码返回
最后把获得的源码进行展示

而在浏览的网页的空白处单击右键，选择“查看网页源代码”，可以看到的html源码，实际上是一样的。

修改一下代码，将获取的html源码写入本地的文件。
方法一：

import requests
def getUrl

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

「已注销」

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python保存requests请求的文件的实战代码

weixin_43178406的博客

08-02

1万+

当我们使用python的requests请求（get、post等）一个url时，有可能响应response的结果是一个文件，如txt/zip等。可使用如下代码保存文件，适用于txt、zip等。

Python3使用requests包抓取并保存网页源码的方法

09-21

主要介绍了Python3使用requests包抓取并保存网页源码的方法,实例分析了Python3环境下requests模块的相关使用技巧,需要的朋友可以参考下

参与评论您还未登录，请先登录后发表或查看评论

【Python】3行代码，利用 requests 保存网页到本地

qq_38866586的博客

08-29

4685

导入 requests模块： import requests 调用 get 方法： r = requests.get('https://www.douban.com/') 将获得的 html 文件写入本地： with open('test.html','w',encoding='utf-8') as f: f.write(r.text) “test.html” 是文件名...

使用requests获取网页源代码-python爬虫开发从入门到实践

wwwcaifeng的博客

07-21

329

需要说明的是，re的.search是指的爬取第一个获取到的符合正则表达式规则的内容，后面的.group（1）是指的输出获取到的内容，如果不加这个.group会返回很多很多内容，比如获取到的这个字符的长度，之类的东西，所有要加上.group（1）网页打开方式有很多种，最常见的是get方式和post方式，在浏览器中输入网址的访问属于get方式，但是又有一些页面只能通过某个链接或按钮以后跳过来，不能通过浏览器输入网址访问，这种网页就是用了post方式。这个代码用的是获取网页源代码的方法，格式如下。

python requests 保存页面HTML代码

人生苦短，何妨一试

01-15

1812

import requests res = requests.get('http://sahitest.com/demo/selectTest.htm') res.encoding = 'utf-8' with open(r'HTML.html','w+') as f: f.write(res.text)

爬虫练习之-requests爬取网页并持久化保存

weixin_56655555的博客

01-26

783

响应文本存储在变量中的原因是为了更好地组织代码，为了在后续的代码中多次使用相同的文本内容而不需要重新发起请求。page_text = response.text#为什么不直接使用 response.text。# 如果文件已存在，则截断文件（即清空文件内容），然后写入新的内容。# 但是它是以二进制方式进行操作，适用于处理非文本文件，比如图片、音频等二进制文件。#'w' 表示以文本写模式打开文件。在这种模式下，如果文件不存在，则创建文件；# print(response.text)#这里可以选择不打印哦。

[requests]爬取搜狗首页数据，并保存为html

weixin_45686246的博客

11-05

550

## 导入requests import requests def spider1(): ## 使用requests的get请求方法，请求搜狗引擎的首页 response = requests.get(url="https://www.sogou.com/") ## 打印输出首页的内容 print(response.text) ## 保存为sogou.html with open("./sogou.html","w+",encoding="utf-8") as

获取网页源代码。支持从txt中获取URL以及导出txt文件

01-03

在这个主题中，我们将深入探讨如何从txt文件中获取URL并下载网页源代码，以及如何将这些源代码导出到新的txt文件。首先，我们需要理解如何从txt文件中读取URL。在编程中，这通常涉及到文件I/O操作，特别是读取文件...

Python利用requests模块下载图片实例代码

09-18

标题中提到的知识点是Python中利用requests模块下载图片的技术方法，这是一种通过Python编程实现从互联网上获取并保存图片到本地的操作。requests模块是Python中一个非常流行且强大的HTTP库，它允许用户通过简单的...

Python3爬虫（二）保存抓取网页的html

ZJE

06-19

5818

1.查看网页的头部信息以确定网页的编码方式： import urllib.request res = urllib.request.urlopen('http://www.163.com') print(res.info()) #in

最简单requests爬取图片保存

GO_Print的博客

03-18

2346

不知道为什么，感觉这周学习有点吃力了，应该是晚上练习没有跟上，感觉还是要多敲代码敲代码啊！！！本周主要还是面向对象这块的助攻，字典、装饰器、命名关键字参数、对象和对象的关系、继承关系。利用面向对象做案例有：做奥特曼打小怪兽、工资表、提款机、贪吃蛇、随机扑克、五子棋、大球吃小球的小游戏。另外周五还学习了json: 主要是从美女网站是趴取图片下载到指定文件里面。 # URL -Uni...

Python学习笔记 | 获取网页源码并将内容保存为本地文件

萌狼蓝天の技术栈

04-16

1556

Python学习笔记 | 获取网页源码并将内容保存为本地文件 Python学习笔记 | 获取网页源码并将内容保存为本地文件 # 获取网页源代码 import requests htmlDocument = requests.get("https://www.toutiaojs.cn/pgay/53671-1-1.html") print(htmlDocument.text) # 将获取的源码写到本地 import os # 用于文件操作 import sys # 用于编码转换 os.getcwd()

爬虫保存html本地存档,Requests+BeautiSoup实现爬取和本地保存 - Weiney

weixin_39623082的博客

06-10

547

Day 16 requests 获取、保存数据

2301_76913032的博客

03-28

680

【代码】Day 16 requests 获取、保存数据。

网页过大，requests如何实现下载

落神的博客

09-22

422

最近爬虫遇到一个问题，被请求的url默认返回4条数据，为了节省请求的次数，修改了其中的参数，从而让它每次请求都可以返回50条数据实际实现的过程中，请求的的次数确实减少了，但是伴随着也出现了一个问题为了排查这个问题，浪费了我很长的时间，以为是程序出现了bug，最后看源码才查出原来是requests默认请求最大返回数据为10M，超过10M数据，数据就会缺失。其实，对于工作中，资源比较充足的公司来说，这个问题是不存在的，但是谁让我公司穷呢！所以为了节省购买IP、服务器等资源，只能从代码层做优化

request携带cookie爬虫爬取招聘网站（多页），保存到mysql和sqlite数据库

weixin_63587281的博客

11-18

892

request携带cookie爬虫爬取招聘网站（多页），保存到mysql和sqlite数据库

python3使用requests包抓取并保存网页源码