我想按“Suche starten”按钮,从这个页面上为一个研究项目刮取结果(基本上它可以不填任何表格-然后打开一个弹出窗口,保存我想要的数据)。在https://www.insolvenzbekanntmachungen.de/cgi-bin/bl_suche.pl
基本上是德国公司破产的公告。
我已经花了相当长的时间试图让它运转起来,但不知怎么的,我无法使它发挥作用。
我知道我也可以尝试selenium headless浏览器,但首先我更喜欢cleaner requests解决方案,其次我希望能够在服务器上连续运行脚本,而不需要任何屏幕。在
所以到目前为止,我所做的是,检查我的浏览器使用Firefox开发工具发送的post请求,并尝试模拟post请求。问题是我只能从初始窗口获取标准数据,而不能从包含所有我想要的数据的打开窗口中获取。在
所以我导入了请求库并创建了一个带有头和有效负载的定制请求。在
^{pr2}$
然后我提出以下要求:r = requests.post('https://www.insolvenzbekanntmachungen.de/cgi-bin/bl_suche.pl',headers=headers,data=payload)
不幸的是,print(r.text)无法提供浏览器弹出窗口中显示的数据。在
任何帮助都将不胜感激!在
碧玉