UserWarning: Ignoring URL ‘xxx‘ since it exceeds Excel‘s limit of 65,530 URLS per worksheet.-CSDN博客

本文链接：https://blog.csdn.net/Xiao_cai_gun/article/details/122623245

最近爬虫使用时出现警告！！！

原因是Exce表限制URL类型数据量为65530,超出的部分会被舍弃。

在这里插入图片描述

导致url 数据缺失。

解决方法：

将strings_to_urls自动转换功能关闭即可。

原代码：

# 保存信息
    data = pd.DataFrame(
        columns=['行业类型', '职位', '职位详情连接', '薪资', '经验要求', '学历要求', '工作性质', '到岗', '招聘人数', '年龄要求', '性别要求', '婚姻要求', '城市', '职位详情', '发布时间', '公司名称', '公司详情页'
                 , '公司类型', '公司性质', '所在地区', '公司规模', '公司简介'])
    for item in lists:
        data.loc[len(data)] = [item[0], item[1], item[2], item[3], item[4], item[5], item[6], item[7],
                       item[8],
                       item[9], item[10], item[11], item[12], item[13], item[14], item[15],
                       item[16],
                       item[17], item[18], item[19], item[20], item[21]]
    data.to_excel(r'D:\（测试）.xlsx')

修改后的代码：

# 保存信息
data = pd.DataFrame(
    columns=['行业类型', '职位', '职位详情连接', '薪资', '经验要求', '学历要求', '工作性质', '到岗', '招聘人数', '年龄要求', '性别要求', '婚姻要求', '城市', '职位详情', '发布时间', '公司名称', '公司详情页'
             , '公司类型', '公司性质', '所在地区', '公司规模', '公司简介'])
for item in lists:
    data.loc[len(data)] = [item[0], item[1], item[2], item[3], item[4], item[5], item[6], item[7],
                   item[8],
                   item[9], item[10], item[11], item[12], item[13], item[14], item[15],
                   item[16],
                   item[17], item[18], item[19], item[20], item[21]]

with pd.ExcelWriter(r'D:\（测试）.xlsx', engine='xlsxwriter', options={'strings_to_urls': False}) as writer:
    data.to_excel(writer, index=False)