Python3模拟登录并爬取表格数据

最新推荐文章于 2024-05-14 18:08:42 发布

追梦IT男

最新推荐文章于 2024-05-14 18:08:42 发布

阅读量3.8k

点赞数 3

文章标签： Python 数据挖掘爬虫 web开发

本文链接：https://blog.csdn.net/wcg541/article/details/98380347

版权

本文讲述了如何使用Python3通过requests库模拟登录并利用pandas库提取网页表格数据的过程。在分析目标网站并发现需要提交表单后，作者通过分析网络请求解决了会话维持的问题，并成功获取目标页面。然后，使用pandas库轻松提取表格数据，并准备所有爬取参数，最终实现了完整的数据爬取流程。

摘要由CSDN通过智能技术生成

主要内容有：

通过requests库模拟表单提交
通过pandas库提取网页表格

朋友发给我一个网址，哭哭啼啼地求我：“去！把这个网页上所有年所有县所有作物的数据全爬下来，存到Access里！”

我看他可怜，勉为其难地挥挥手说：“好嘞，马上就开始！”

目标分析

朋友给我的网址是这个：https://www.ctic.org/crm?tdsourcetag=s_pctim_aiomsg

打开长这样：

根据我学爬虫的经验，通常只要把年月日之类的参数附加到url里面去，然后用requests.get拿到response解析html就完了，所以这次应该也差不多——除了要先想办法获得具体有哪些年份、地名、作物名称，其他部分拿以前的代码稍微改改就能用了，毫无挑战性工作，生活真是太无聊了

Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

点击 View Summary 后出现目标网页长这样

那个大表格的数据就是目标数据了，好像没什么了不起的——

有点不对劲

目标数据所在网页的网址是这样的：https://www.ctic.org/crm/?action=result ，刚刚选择的那些参数并没有作为url的参数啊！网址网页都变了，所以也不是ajax

这和我想象的情况有巨大差别啊

尝试获取目标页面

让我来康康点击View Summary这个按钮时到底发生了啥：右键View Summary检查是这样：

实话说，这是我第一次遇到要提交表单的活儿。以前可能是上天眷顾我，统统get就能搞定，今天终于让我碰上一个post了。

点击View Summary，到DevTools里找network第一条：

不管三七二十一，post一下试试看


import requests

url  =  'https://www.ctic.org/crm?tdsourcetag=s_pctim_aiomsg'

headers  =  {'user-agent':  'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '

 'AppleWebKit/537.36 (KHTML, like Gecko) '

 'Chrome/74.0.3729.131 Safari/537.36',

 'Host':  'www.ctic.org'}

data  =  {'_csrf':  'SjFKLWxVVkkaSRBYQWYYCA1TMG8iYR8ReUYcSj04Jh4EBzIdBGwmLw==',

        'CRMSearchForm[year]':  '2011',

        'CRMSearchForm[format]':  'Acres',

        'CRMSearchForm[area]':  'County',

        'CRMSearchForm[region]':  'Midwest',

        'CRMSearchForm[state]':  'IL',

        'CRMSearchForm[county]':  'Adams',

        'CRMSearchForm[crop_type]':  'All',

        'summary':  'county'}

response  =  requests.post(url,  data=data,  headers=headers)

print(response.status_code)

最低0.47元/天解锁文章

追梦IT男

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Python3模拟登录并爬取表格数据

主要内容有：通过requests库模拟表单提交通过pandas库提取网页表格朋友发给我一个网址，哭哭啼啼地求我：“去！把这个网页上所有年所有县所有作物的数据全爬下来，存到Access里！”我看他可怜，勉为其难地挥挥手说：“好嘞，马上就开始！”目标分析朋友给我的网址是这个：https://www.ctic.org/crm?tdsourcetag=s_pctim_aiomsg打开长这...
复制链接

扫一扫