爬虫爬取当当网书籍

这篇博客介绍了如何使用Python爬虫从当当网抓取书籍信息。通过输入书籍名称,利用requests库发送HTTP请求,然后用lxml库解析HTML,提取书籍的名称、链接和价格,并保存到文件中。由于当当网没有严格的反爬策略,初学者可以轻易上手实践。
摘要由CSDN通过智能技术生成
初学者学习爬虫爬取当当网会比较容易,因为当当没有反爬虫

import requests
from lxml import html
name = input('请输入要搜索书籍的信息:')
# 1.准备url
url = "http://search.dangdang.com/?key={}&act=input".format(name)
start = 1
while True:
    print(start)
    start += 1
    # 2.发送请求
    response = requests.get(url)
    # 3.获取相应数据
    str = response.text

    # 4.将字符串转换为element对象
    element = html.fromstring(str)
    # 5.提取数据
    # 5.1先分类
    li_list = element.xpath('//div[@id="search_nature_rg"]/ul/li')

    # 5.2再获取数据
    for li in li_list:
        book_name = li.xpath('./a/@title')
        book_link = li.xpath('./a/@href')
        book_price = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()')
        if not book_price:
            book_price = li.xpath('./div[@class="ebook_buy"]/p[@class&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值