python拿到的数据怎么放到页面里_学会Python3模拟登录并爬取表格数据!excel高手也自叹不如!...

本文讲述了如何使用Python进行模拟登录并爬取网页表格数据,详细解析了处理POST请求、管理cookies以及利用pandas库提取网页表格的过程,展示了从目标网页获取数据的完整流程。
摘要由CSDN通过智能技术生成

主要内容有:

  • 通过requests库模拟表单提交
  • 通过pandas库提取网页表格

朋友发给我一个网址,哭哭啼啼地求我:“去!把这个网页上所有年所有县所有作物的数据全爬下来,存到Access里!”

我看他可怜,勉为其难地挥挥手说:“好嘞,马上就开始!”

大家在学python的时候肯定会遇到很多难题,以及对于新技术的追求,这里推荐一下我们的Python学习扣qun:631441315,这里是python学习者聚集地!!同时,自己是一名高级python开发工程师,从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!每日分享一些学习的方法。和需要注意的小细节

目标分析

朋友给我的网址是这个: https://www.ctic.org/crm?tdsourcetag=s_pctim_aiomsg

打开长这样:

173cacf9a0294f3e14c6c5f3b6d799d2.png

根据我学爬虫的经验,通常只要把年月日之类的参数附加到url里面去,然后用 requests.get 拿到 response 解析html就完了,所以这次应该也差不多——除了要先想办法获得具体有哪些年份、地名、作物名称,其他部分拿以前的代码稍微改改就能用了,毫无挑战性工作,生活真是太无聊了

点击 View Summary 后出现目标网页长这样

f7af14204ce68f8eb2ea14d042b0a4ac.png

那个大表格的数据就是目标数据了,好像没什么了不起的——

有点不对劲

目标数据所在网页的网址是这样的: https://www.ctic.org/crm/?action=result ,刚刚选择的那些参数并没有作为url的参数啊!网址网页都变了,所以也不是ajax

这和我想象的情况有

巨大 差别啊

尝试获取目标页面

让我来康康点击 View Summary 这个按钮时到底发生了啥:右键 View Summary 检查是这样:

23ec9f3ad7f0c585a6853d94e3f0cc82.png

实话说,这是我第一次遇到要提交表单的活儿。以前可能是上天眷顾我,统统 get 就能搞定,今天终于让我碰上一个 post 了。

点击 View Summary ,到DevTools里找network第一条:

4ad785fe6ec7ccd1a27471884f3b0447.png

不管三七二十一, post 一下试试看

import requests
url = 'https://www.ctic.org/crm?tdsourcetag=s_pctim_aiomsg'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
 'AppleWebKit/537.36 (KHTML, like Gecko) '
 'Chrome/74.0.3729.131 Safari/537.36',
 'Host': 'www.ctic.org'}
data = {'_csrf': 'SjFKLWxVVkkaSRBYQWYYCA1TMG8iYR8ReUYcSj04Jh4EBzIdBGwmLw==',
 'CRMSearchForm[year]': '2011',
 'CRMSearchForm[format]': 'Acres',
 'CRMSearchForm[area]': 'County',
 'CRMSearchForm[region]&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值