python获取php网页源码,Python3使用requests包抓取并保存网页源码的方法介绍

最新推荐文章于 2021-04-16 20:52:51 发布

蓝原光

最新推荐文章于 2021-04-16 20:52:51 发布

阅读量470

点赞数

文章标签： python获取php网页源码

本文实例讲述了Python3使用requests包抓取并保存网页源码的方法。分享给大家供大家参考，具体如下：

使用Python 3的requests模块抓取网页源码并保存到文件示例：

import requests

html = requests.get("http://www.baidu.com")

with open('test.txt','w',encoding='utf-8') as f:

f.write(html.text)

这是一个基本的文件保存操作，但这里有几个值得注意的问题：

1.安装requests包，命令行输入pip install requests即可自动安装。很多人推荐使用requests，自带的urllib.request也可以抓取网页源码

2.open方法encoding参数设为utf-8，否则保存的文件会出现乱码。

3.如果直接在cmd中输出抓取的内容，会提示各种编码错误，所以保存到文件查看。

4.with open方法是更好的写法，可以自动操作完毕后释放资源。

另一个例子：

import requests

ff = open('testt.txt','w',encoding='utf-8')

with open('test.txt',encoding="utf-8") as f:

for line in f:

ff.write(line)

ff.close()

这是演示读取一个txt文件，每次读取一行，并保存到另一个txt文件中的示例。

因为在命令行中打印每次读取一行的数据，中文会出现编码错误，所以每次读取一行并保存到另一个文件，这样来测试读取是否正常。(注意open的时候制定encoding编码方式)

更多Python3使用requests包抓取并保存网页源码的方法介绍相关文章请关注PHP中文网！

本文原创发布php中文网，转载请注明出处，感谢您的尊重！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

蓝原光

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python3使用requests包抓取并保存网页源码的方法

09-21

本篇将详细介绍如何使用requests包抓取并保存网页源码。首先，确保已经安装了requests库。如果没有，可以通过Python的包管理器pip进行安装，命令如下： ```bash pip install requests ``` 一旦安装完成，我们就...

爬虫 python 爬取php的网页，带有post参数的网页如何爬取

weixin_40340586的博客

08-06

4156

记录一下自己的爬虫踩过的坑，上一次倒是写了一些，但是写得不够清楚，这次，写清楚爬取的过程。这个网站是某省的志愿服务网。就是它了。我向爬取一些组织开展过的活动，比如这一个组织，这个组织的页面找打它不存在什么问题，组织的网址只需要拼接就可以了。看似很容易。基础网址是：https://sd.zhiyuanyun.com/app/org/view.php?id=（*****）前面是一堆，后面只需要把id后面的组织的ID放进去就可以，组织的ID也很好找。就是直接从首页...

参与评论您还未登录，请先登录后发表或查看评论

python爬取php內容,网页爬虫 - python 爬取网站并解析非json内容

weixin_42412910的博客

03-26

552

小弟刚学会获得json的内容，但今天爬的网站返回的并不是json内容并且会有一个随机数的生成在每次请求链接的后面不知道会不会影响我要爬的内容需要获得内容是下图中间的内容网站链接 http://www.szse.cn/main/discl...我自己尝试的代码：import requestsdir = '/Users/S1Lence/Desktop/new_html/szse/许可类重组问询函'h...

python 爬虫 php页面,python之网页爬虫教程

weixin_34795892的博客

03-10

915

在我们日常上网浏览网页的时候，经常会看到一些好看的图片，我们就希望把这些图片保存下载，或者用户用来做桌面壁纸，或者用来做设计的素材。下面这篇文章就来给大家介绍了关于利用python实现最简单的网页爬虫的相关资料，需要的朋友可以参考借鉴，下面来一起看看吧。前言网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本...

python 爬虫 php页面,爬虫教程」Python做一个简单爬虫，小白也能看懂的教程

weixin_28916817的博客

03-10

417

俗话说“巧妇难为无米之炊”，除了传统的数据源，如历史年鉴，实验数据等，很难有更为简便快捷的方式获得数据，在目前互联网的飞速发展写，大量的数据可以通过网页直接采集，“网络爬虫”应运而生，本篇将会讲解简单的网络爬虫编写方法。开发环境每个人的开发环境各异，下面上是我的开发环境，对于必须的工具，我会加粗。windows10(操作系统)，pycharm(IDE，当然，用eclipse和sublime均可)，...

python scrapy框架基如何实现多线程_【转】爬虫的一般方法、异步、并发与框架scrapy的效率比较...

weixin_39625162的博客

11-26

796

问题的由来我们的需求为爬取红色框框内的名人（有500条记录，图片只展示了一部分）的名字以及其介绍，关于其介绍，点击该名人的名字即可，如下图：这就意味着我们需要爬取500个这样的页面，即500个HTTP请求（暂且这么认为吧），然后需要提取这些网页中的名字和描述，当然有些不是名人，也没有描述，我们可以跳过。最后，这些网页的网址在第一页中的名人后面可以找到，如George Washington的网页后...

Python requests模块基础使用方法实例及高级应用(自动登陆,抓取网页源码)实例详解

09-17

- **抓取网页源码**：获取HTML页面的源码，通常通过GET请求，然后使用`r.text`。对于动态加载的页面，可能需要配合Selenium等工具来获取完整内容。 - **处理Cookies**：requests会自动管理cookies，`r.cookies`...

Python requests获取网页常用方法解析

09-17

`requests.get()`函数是最基础的网页获取方法，它接收一个URL作为参数，返回一个Response对象。在`Crawler`类中，`_getCookie()`方法展示了如何通过GET请求获取站点的cookie： ```python def _getCookie(self): try...

python获取整个网页源码的方法

09-16

在Python编程中，获取整个网页源码是一项基本的任务，通常用于网络爬虫或者数据分析。本文将详细介绍两种常见的方法来实现这一功能。 1. 使用`requests`库 `requests`是Python中一个强大的HTTP客户端库，它允许...

python爬虫抓php网页数据,Python爬虫入门，快速抓取大规模数据（第六部分）

weixin_30941189的博客

03-21

659

Python爬虫入门，快速抓取大规模数据(第六部分)作者:PHPYuan 时间:2018-06-13 23:39:46在前面的章节中，我们以尽量少的代码演示了爬虫的基本原理。如果只是需要抓取一些简单的数据，那么我们修改一下前面的代码就可以完成任务了。但是当我们需要完成一些复杂的大型抓取任务时，我们就需要考虑更多东西，例如爬虫的可扩展性，抓取效率等。现在让我们再回顾一下我们抓取的过程：从待下载URL...

网络爬虫有什么用？怎么爬？手把手教你爬网页（Python代码）

大数据

04-24

3万+

导读：本文主要分为两个部分：一部分是网络爬虫的概述，帮助大家详细了解网络爬虫；另一部分是HTTP请求的Python实现，帮助大家了解Python中实现HTTP请求的各种方...

python抓取一个网页的源代码并存储到本地文件

吴世俊的博客

04-08

2万+

1.1读取一个网页的源代码：url：我们要爬取的网页链接（例如：url = “https://www.hao123.com”）#读取一个网页的源代码import urllib.request def read_pageHtml(url): file = urllib.request.urlopen(url) data = file.read() return data u...

浅谈利用python保存整个网站页面

gorquan的博客

08-16

1万+

空闲的时候随便找了一个网站练习一下爬虫，总结一下自己写爬虫遇到的知识点实现的功能抓取全站URL 获取CSS，JS， img等文件连接获取文件名字保存文件到本地用到的模块 urllib bs4 re os 第一部分：抓取全站URL 先贴上代码 # 获取当前页面子网站子网站 def get_urls(url, baseurl, urls): with req...

Python篇----Requests获取网页源码（爬虫基础）