最近爬虫使用时出现警告!!!
原因是Exce表限制URL类型数据量为65530,超出的部分会被舍弃。
导致url 数据缺失。
解决方法:
将strings_to_urls自动转换功能关闭即可。
原代码:
# 保存信息
data = pd.DataFrame(
columns=['行业类型', '职位', '职位详情连接', '薪资', '经验要求', '学历要求', '工作性质', '到岗', '招聘人数', '年龄要求', '性别要求', '婚姻要求', '城市', '职位详情', '发布时间', '公司名称', '公司详情页'
, '公司类型', '公司性质', '所在地区', '公司规模', '公司简介'])
for item in lists:
data.loc[len(data)] = [item[0], item[1], item[2], item[3], item[4], item[5], item[6], item[7],
item[8],
item[9], item[10], item[11], item[12], item[13], item[14], item[15],
item[16],
item[17], item[18], item[19], item[20], item[21]]
data.to_excel(r'D:\(测试).xlsx')
修改后的代码:
# 保存信息
data = pd.DataFrame(
columns=['行业类型', '职位', '职位详情连接', '薪资', '经验要求', '学历要求', '工作性质', '到岗', '招聘人数', '年龄要求', '性别要求', '婚姻要求', '城市', '职位详情', '发布时间', '公司名称', '公司详情页'
, '公司类型', '公司性质', '所在地区', '公司规模', '公司简介'])
for item in lists:
data.loc[len(data)] = [item[0], item[1], item[2], item[3], item[4], item[5], item[6], item[7],
item[8],
item[9], item[10], item[11], item[12], item[13], item[14], item[15],
item[16],
item[17], item[18], item[19], item[20], item[21]]
with pd.ExcelWriter(r'D:\(测试).xlsx', engine='xlsxwriter', options={'strings_to_urls': False}) as writer:
data.to_excel(writer, index=False)