Python爬虫--豆果网美食爬取demo,使用xpath库爬取,保存数据到excel

注1:只是用来简单练习,无频繁且恶意请求。

注2:此爬虫使用urllib和xpath库完成,页面数据都在html标签中。基础爬取,无需登录及验证码输入。

爬取数据网站链接:https://www.douguo.com/jingxuan/0

1、百度打开上方链接进入网站,点击F12打开查找元素 

2、导入xpath库

pip install lxml

3 、xpath基本语法:

# 解析本地html     etree.parse()
# 解析响应html     etree.HTML(response.read().decode('utf-8'))

4、代码开发

from lxml import etree
import urllib.request
from openpyxl import Workbook

# 解析本地html     etree.parse()
# 解析响应html     etree.HTML(response.read().decode('utf-8'))

# 爬取网站链接
url = 'https://www.douguo.com/jingxuan/0'

# 发送请求
request = urllib.request.urlopen(url)

#读取响应回来的结果
response = request.read().decode('utf-8')

# 响应回来的页面使用etree.HTML封装后得到一个对象
html = etree.HTML(response)

# 开始对对象结果数据解析
links = html.xpath('//ul[@id="jxlist"]/li/a/@href')
names = html.xpath('//ul[@id="jxlist"]/li/div/a[1]/text()')

# 需要把此链接拼接到links结果的前边,成为一个完成的链接
h = 'https://www.douguo.com'


# 创建一个空的excel
wb = Workbook()
# 选择当前工作表
ws = wb.active
# 写入表头
ws.append(['链接', '名称', '备注'])


if __name__ == '__main__':
    # 遍历解析后的结果
    for link, name in zip(links, names):

        # 把数据添加到工作表对应表头中
        ws.append([h+link, name])

    # 保存
    wb.save('dou.xlsx')
    print("结果保存成功")

5、运行代码,结果保存在本地项目中

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值