pathon---爬虫学习2

最新推荐文章于 2024-08-03 14:18:54 发布

huyishero

最新推荐文章于 2024-08-03 14:18:54 发布

阅读量605

点赞数 1

本文链接：https://blog.csdn.net/huyishero/article/details/79119911

版权

本文继续探讨Python爬虫，主要内容是如何将爬取的数据有效地保存。示例代码展示了将结果保存到Excel文件的基本操作。

摘要由CSDN通过智能技术生成

上一篇文章，讲了解析网页数据，

这边文章说说如何把结果保存。

这是一个简单的创建xls文件的代码

import xlwt
#定义一个excel文件，字符编码utf-8
book = xlwt.Workbook(encoding = 'utf-8')
#给excel文件增加sheet表
sheet = book.add_sheet('sheet1')
#写数据示例，表格是从0行开始，0列开始，所以第一行第一个格就是0,0
sheet.write(0,0,'pathon')
sheet.write(1,1,'love')
#把excel存到硬盘上，后缀名只能是xls，不支持xlsx
book.save('d:/test.xls')

我把上次解析网页的内容部分，封装成一个函数，来调用，把结果用这个方式写入到xls中。

from lxml import etree
import requests
import xlwt

#定义一个数组
all_info_list = []
#定义一个方法
def get_info(url):
    # 把地址解析成请求
    res = requests.get(url)
    # 把地址请求的页面变成html
    html = etree.HTML(res.text)
    # 用xpath把页面里的指定元素解析到数组中
    # @class是 标签中的class元素
    infos = html.xpath('//ul[@class="sellListContent"]/li')
    # 对数据做循环