Python网络爬虫（Get、Post抓取方式）

最新推荐文章于 2025-08-19 16:32:06 发布

转载最新推荐文章于 2025-08-19 16:32:06 发布 · 1.7w 阅读

文章标签：

#网络爬虫 #python

Python 专栏收录该内容

13 篇文章

订阅专栏

本文介绍了使用Python的urllib库进行网页数据抓取的基本方法，包括GET和POST请求方式，以及如何保存抓取的数据为本地文件。同时，文章还讨论了中文字符的处理和服务器端重定向的识别。

简单的抓取网页

import urllib.request   
url="http://google.cn/"  
response=urllib.request.urlopen(url)    #返回文件对象
page=response.read()

直接将URL保存为本地文件

import urllib.request  
url="http://www.xxxx.com/1.jpg"
urllib.request.urlretrieve(url,r"d:\temp\1.jpg")

POST方式

import urllib.parse  
import urllib.request  

url="http://liuxin-blog.appspot.com/messageboard/add" 

values={"content":"命令行发出网页请求测试"}  
data=urllib.parse.urlencode(values) 

#创建请求对象  
req=urllib.request.Request(url,data) 
#获得服务器返回的数据  
response=urllib.request.urlopen(req) 
#处理数据  
page=response.read()

GET方式

import urllib.parse  
import urllib.request  

url="http://www.google.cn/webhp" 

values={"rls":"ig"}  
data=urllib.parse.urlencode(values)  

theurl=url+"?"+data 
#创建请求对象  
req=urllib.request.Request(theurl) 
#获得服务器返回的数据  
response=urllib.request.urlopen(req) 
#处理数据  
page=response.read()

有2个常用的方法,geturl(),info()

geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息。

中文问题的处理，会用到 encode()编码 dencode()解码

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

逆風的薔薇

关注关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

基于Python的Post请求数据爬取的方法详解

09-19

主要介绍了基于Python的Post请求数据爬取的方法,需要的朋友可以参考下

Python网络爬虫与数据抓取.md

08-18

### Python网络爬虫与数据抓取相关知识点 #### 一、引言与网络爬虫概述 ##### 1.1 为什么进行网络爬虫与数据抓取？ - **数据获取的重要性**： - 在大数据时代，数据是驱动业务发展的关键资源之一。 - 通过网络...

1 条评论您还未登录，请先登录后发表或查看评论

Python爬虫中的Get和Post方法

cjhc666的博客

02-09

4726

通俗的说，Get是直接请求、打开，Post是请求、对方通过后才能打开。 Get和Post最重要的区别是，Get方式是直接一链接形式访问，链接中包含了所有的参数，当然如果包含了密码什么的是不安全的，不过你可以直观的看到自己提交的内容。 Post则不会再网址上显示所有参数，不过如果你想直接查看提交了什么就不太方便了。可以根据自己的需要酌情选择。

Python网络爬虫（三） - 爬取动态网页数据

最新发布

zcs2312852665的博客

08-19

1763

本文介绍了动态网页及Selenium技术，详细讲解了Selenium的安装与WebDriver配置流程。主要内容包括：1）动态网页与静态网页的区别，2）Selenium库的安装及验证方法，3）Chrome/Edge浏览器驱动的下载与配置指南，4）WebDriver的基本操作（启动/关闭浏览器、页面导航、窗口控制等）。通过代码示例演示了如何实现网页自动化操作，为动态网页爬虫开发提供了完整的技术解决方案。（150字）

python post请求实例_Python爬虫的post请求简单实例

weixin_39688875的博客

11-30

240

登陆网页注册时用Python进行post请求，代码首先查看页面源代码，注意form表单部分，哪里是需要递交的表单信息运行代码import urllib.requestimport urllib.parseurl='http://www.iqianyue.com/mypost'postdata=urllib.parse.urlencode({'name':'chenkehk','pass':'316...

python爬取数据步骤_基于Python的Post请求数据爬取的方法详解

weixin_39590472的博客

11-28

445

为什么做这个和同学聊天，他想爬取一个网站的post请求观察该网站的post请求参数有两种类型：（1）参数体放在了query中，即url拼接参数（2）body中要加入一个空的json对象，关于为什么要加入空的json对象，猜测原因为反爬虫。既有query参数又有空对象体的body参数是一件脑洞很大的事情。一开始先在 apizza网站上了做了相关实验才发现上面这个规律的，并发现该网站的请求参数要为r...

Python网络爬虫技术_习题答案.rar

07-12

Python网络爬虫主要用于自动化地从互联网上抓取大量数据，这对于数据挖掘、市场研究、新闻监控等任务至关重要。学习网络爬虫技术，我们需要掌握Python的基础语法，如字符串操作、文件处理、网络请求库（如requests）...

解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫全套教学资料

10-25

这些资源将帮助学习者系统性地学习和实践Python爬虫，从理论到实践，逐步掌握网络爬虫的精髓。通过学习这些内容，你可以构建自己的网络爬虫，无论是抓取个人兴趣的信息，还是为企业收集大数据，都能得心应手。同时...

Python网络爬虫技术完整教案.docx

05-29

- **请求方法**：GET、POST、PUT、DELETE等。 - **状态码**：200表示成功，404表示找不到资源，500表示服务器内部错误。 - **头部信息**：包含请求或响应的元信息，如Content-Type、User-Agent等。 - **Cookie...

Python网络爬虫代码

10-09

【Python网络爬虫代码】是基于Python3编程语言实现的一款数据抓取工具，主要用于从互联网上，特别是百度百科这类网站，自动获取指定网页中的信息。爬虫技术在信息技术领域扮演着重要角色，它能帮助我们高效地提取...

Python-一个使用抓取的代理进行httpGET请求的类Pythonrequests

08-10

一个使用抓取的代理进行http GET请求的类 (Python requests)

4.网络爬虫—Post请求(实战演示)

Oona_01的博客

03-21

2451

这个例子中，我们向http://example.com/api/data这个URL发送了一个POST请求，请求体中包含了name和age两个字段的数据。与POST请求不同，GET请求将数据以查询字符串的形式附加在URL后面，而不是封装在请求体中。

爬虫之post请求

qq_43776408的博客

06-17

858

# 网站的登录窗口输入密码和用户名 # 然后打开开发者 # 勾选 Preserve log #然后选择Network #最后点击登录 #然后文件里面找到login.html #里面就有我们登陆的密码和账号 from urllib.request import Request, urlopen from urllib.parse import urlencode from fake_useragent import UserAgent url = "http://www.sxt.cn/index/logi

python爬虫requests.post()_python爬虫（九） requests库之post请求

weixin_39967812的博客

11-20

339

1、方法：response=requests.post("https://www.baidu.com/s",data=data)2、拉勾网职位信息获取因为拉勾网设置了反爬虫机制，在拉勾网中，一些页面的信息获取方法是post,所以就用到了post方法在拉勾网中，我们搜索与python相关的职业，如果我们爬取这一页的信息，是没有职业的信息的，因为职业的信息在另外的jsp页面上，所以我们需要在这个界面上...

python爬虫requests.post()_python爬虫：用requests.post提交表单抓取异步ajax信息失败

weixin_39864261的博客

11-23

345

http://www.zjzfcg.gov.cn/cggg?pageNum=1&pageCount=30&searchKey=%E8%99%9A%E6%8B%9F%E5%8C%96&bidType=0&bidWay=0&region=0请看这个网站，翻页是通过ajax的，并没有刷新界面。我做了爬虫想爬去上面的content，按照网上的教程，发送一个xmlhttprequest:放一个data和一个...

【爬虫】爬虫学习数据请求 request.get()

weixin_37804469的博客

09-19

365

【代码】【爬虫】爬虫学习数据请求 request.get()

python爬虫，requests发送post请求，视频笔记（2）

heipao17的博客

01-14

1879

resp=requests.get(url) resp.text返回的是服务器拿到的东西，可能是源代码也可能是数据，今天的post请求返回的就大部分是数据。输入fanyi.baidu.com打开百度翻译页面，按开F12，在搜索框输入dog,在network->XHR里面，左边有一些资源包，点开第三个sug发现和页面上显示的翻译意思一致，这时候我们看第三个sug的headers,可以看到它的请求方式是post,请求url是https://fanyi.baidu.com/sug 请求参数：返回的数

python-(6-3-2)爬虫---requests入门（基于post请求）

oldboy1999的博客

11-08

621

python-(6-3-2)爬虫---requests入门（基于post请求）