UserWarning: Ignoring URL ‘xxx‘ since it exceeds Excel‘s limit of 65,530 URLS per worksheet.

最近爬虫使用时出现警告!!!

原因是Exce表限制URL类型数据量为65530,超出的部分会被舍弃。

在这里插入图片描述

导致url 数据缺失。

解决方法:

将strings_to_urls自动转换功能关闭即可。

原代码:

# 保存信息
    data = pd.DataFrame(
        columns=['行业类型', '职位', '职位详情连接', '薪资', '经验要求', '学历要求', '工作性质', '到岗', '招聘人数', '年龄要求', '性别要求', '婚姻要求', '城市', '职位详情', '发布时间', '公司名称', '公司详情页'
                 , '公司类型', '公司性质', '所在地区', '公司规模', '公司简介'])
    for item in lists:
        data.loc[len(data)] = [item[0], item[1], item[2], item[3], item[4], item[5], item[6], item[7],
                       item[8],
                       item[9], item[10], item[11], item[12], item[13], item[14], item[15],
                       item[16],
                       item[17], item[18], item[19], item[20], item[21]]
    data.to_excel(r'D:\(测试).xlsx')

修改后的代码:

# 保存信息
data = pd.DataFrame(
    columns=['行业类型', '职位', '职位详情连接', '薪资', '经验要求', '学历要求', '工作性质', '到岗', '招聘人数', '年龄要求', '性别要求', '婚姻要求', '城市', '职位详情', '发布时间', '公司名称', '公司详情页'
             , '公司类型', '公司性质', '所在地区', '公司规模', '公司简介'])
for item in lists:
    data.loc[len(data)] = [item[0], item[1], item[2], item[3], item[4], item[5], item[6], item[7],
                   item[8],
                   item[9], item[10], item[11], item[12], item[13], item[14], item[15],
                   item[16],
                   item[17], item[18], item[19], item[20], item[21]]

with pd.ExcelWriter(r'D:\(测试).xlsx', engine='xlsxwriter', options={'strings_to_urls': False}) as writer:
    data.to_excel(writer, index=False)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

宇智波.望

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值