爬取动态网站表格内容

最新推荐文章于 2024-04-23 10:40:16 发布

置顶一只鸭鸭ya

最新推荐文章于 2024-04-23 10:40:16 发布

阅读量4.7k

点赞数 5

分类专栏：爬虫文章标签：动态网页爬取爬虫

本文链接：https://blog.csdn.net/qq_38875300/article/details/80148471

版权

爬虫专栏收录该内容

7 篇文章 1 订阅

订阅专栏

一、简介

（1）选用requests

（2）数据来源以执法惩戒网站为例网址：http://119.6.84.165:8085/sfgk/webapp/area/cdsfgk/zxxx/zxcj.jsp

二、考察网站

按f12，f5刷新，点击network如图：

点击每一个请求，查找哪个是你需要的，假如我们是爬取图片和动图的话，我们就看看jpg是不是我们想要的。但是我们的目标是爬取表格，我们就完全没有必要点开.png\.gif\.jpg。重点要关注看.jsp结尾的，首先打开第一个zxcj.jsp,看preview和response都可以，但是preview比较直观，显示的是网页的一些标题、菜单栏之类的。在我们一顿搜索以后找到了ajax.jsp，仔细一看数字信息对上了，如图，所以ajax.jsp就是我们想要请求的。

首先是考察from提交的信息：

还有from的信息

三、开始爬虫

（1）找到请求头Headers,From Data的信息，这些参数都是我们要用来发送post请求的，复制到本地备用。通过from种格式传到服务器。我选用了元组的格式。当data 参数传入一个元组列表。在表单中多个元素使用同一 key 的时候，这种方式尤其有效。现在只能爬取一页，通过进一步考察from的参数可以找到参数currentPage显示当前为第几页。同样post_data里面等待post请求发送时一同传过去。

post_data = (('opt', 'getSxbzxrList'), ('zxlx','zxcj'), ('xxlx', 0), ('nd', ''),
             ('dz',''), ('zh', ''), ('fymc', '成都市中级人民法院'), ('bzxr',''),
             ('fydm', 510100),('currentPage',i))

（2）按照标准套路填写，我只爬了4页：

url = 'http://119.6.84.165:8085/sfgk/webapp/area/cdsfgk/zxxx/ajax.jsp'
for page in range(0, 4):
    post_data = (('opt', 'getSxbzxrList'), ('zxlx','zxcj'), ('xxlx', 0), ('nd', ''),
                 ('dz',''), ('zh', ''), ('fymc', '成都市中级人民法院'), ('bzxr',''),
                 ('fydm', 510100),('currentPage',page))
    response = requests.post(url, data=post_data)
    print(response.text)

四、爬取的数据：

class getData(object):
    def __init__(self,url):
        self.url = url
        self.html = ''

    def get_html(self):
        for page in range(0, 4):
            post_data = (('opt', 'getSxbzxrList'), ('zxlx','zxcj'), ('xxlx', 0), ('nd', ''),
                         ('dz',''), ('zh', ''), ('fymc', '成都市中级人民法院'), ('bzxr',''),
                         ('fydm', 510100),('currentPage',page))
            self.html += requests.post(self.url, data=post_data).text
        return self.html
gd = getData(URL)
print(gd.get_html())

五、数据的过滤和保存

爬取后的文字解析工作

一只鸭鸭ya

关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
爬取动态网站表格内容

一、简介（1）选用requests（2）数据来源以执法惩戒网站为例网址：http://119.6.84.165:8085/sfgk/webapp/area/cdsfgk/zxxx/zxcj.jsp目录一、简介二、考察网站三、开始爬虫四、爬取的数据：五、数据的过滤和保存二、考察网站按f12，f5刷新，点击network如图：点击每...
复制链接

扫一扫