selenium结合接口获取数据

起因是网站登录使用selenium输入账号密码后还需要点击图片验证
于是手动输入账号密码获取cookie绕过登录
这里用到selenium获取cookie保存到本地,然后接下来使用request读取本地cookie绕过登录
参考:https://blog.csdn.net/qq_42348937/article/details/85065104

def Get_hisnav(fund_id,cookie_dict):
    j=1

    for i in range(1,len(fund_id)):
        while True:
            url='https://simu.eastmoney.com/PinzhongF10DataApi.aspx?type=lsjz&fc='+str(fund_id[i])+'&pageindex='+str(j)+'&pagesize=10&lsjzSDate=&lsjzEDate=&'
            payload = {}
            headers = {

                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36',
                'Accept': '*/*',
                'Host': 'simu.eastmoney.com',
                'Connection': 'keep-alive'
            }

            response = requests.request("GET", url,  headers=headers, data=payload,cookies=cookie_dict)
            res=response.text
            if len(res) > 100:
                data_dict = eval(res[11:])
                nav_datas = data_dict['Datas']
                df = pd.DataFrame(nav_datas)

                filePathstd1 = os.path.join(os.getcwd(), r"D:\历史净值数据_new.csv")
                if os.path.exists(filePathstd1):
                    df.to_csv(filePathstd1, mode='a+', encoding='gbk', index=False, header=None)
                else:
                    df.to_csv(filePathstd1, encoding='gbk', index=False)
                print(" "+str(fund_id[i])+"基金的第"+str(j)+"页数据获取完成 ,索引为"+str(i)+" ")
                time.sleep(6)
                j += 1
            else:
                print("翻页结束")
                j = 1
                break
        time.sleep(2)
Selenium 是一个用于自动化浏览器操作的工具,但是它仅限于对静态网页内容的获取操作。对于动态数据(比如通过AJAX加载的内容或者通过JavaScript生成的内容),Selenium的默认行为是在页面加载完成后立即获取页面的源代码,而不会等待动态内容的加载。 要解决Selenium获取不到动态数据的问题,可以使用以下方法: 1. 显式等待:在需要获取动态数据的地方,使用Selenium提供的显式等待功能。通过设置合适的等待间,让Selenium等待动态内容加载完成后再获取数据。 2. 使用JavaScript执行代码:通过执行JavaScript代码,可以模拟页面上的动作并获取到动态数据。可以使用Selenium提供的execute_script方法来执行JavaScript代码。 3. 使用浏览器插件:有一些浏览器插件(例如PhantomJS、Headless Chrome等)可以在无界面模式下运行,并支持动态数据获取。可以将这些插件与Selenium结合使用,通过控制插件运行来获取动态数据。 4. 使用API请求数据:如果网站提供了API接口获取数据,可以直接使用Selenium发送HTTP请求来获取动态数据,而不是通过浏览器页面来获取。 需要注意的是,以上方法都需要根据具体的网站和动态数据的加载方式来选择合适的解决方案。有候可能需要结合多种方法来获取完整的动态数据。此外,有些网站可能会有反爬虫机制,为了避免被封禁,应该尽量模拟正常用户的操作行为,避免频繁请求和不必要的操作
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值