爬虫爬取当当网书籍

最新推荐文章于 2024-04-16 03:06:34 发布

从今日起

最新推荐文章于 2024-04-16 03:06:34 发布

阅读量944

点赞数 1

分类专栏：爬虫

本文链接：https://blog.csdn.net/weixin_41629917/article/details/100997058

版权

这篇博客介绍了如何使用Python爬虫从当当网抓取书籍信息。通过输入书籍名称，利用requests库发送HTTP请求，然后用lxml库解析HTML，提取书籍的名称、链接和价格，并保存到文件中。由于当当网没有严格的反爬策略，初学者可以轻易上手实践。

摘要由CSDN通过智能技术生成

初学者学习爬虫爬取当当网会比较容易，因为当当没有反爬虫

import requests
from lxml import html
name = input('请输入要搜索书籍的信息:')
# 1.准备url
url = "http://search.dangdang.com/?key={}&act=input".format(name)
start = 1
while True:
    print(start)
    start += 1
    # 2.发送请求
    response = requests.get(url)
    # 3.获取相应数据
    str = response.text

    # 4.将字符串转换为element对象
    element = html.fromstring(str)
    # 5.提取数据
    # 5.1先分类
    li_list = element.xpath('//div[@id="search_nature_rg"]/ul/li')

    # 5.2再获取数据
    for li in li_list:
        book_name = li.xpath('./a/@title')
        book_link = li.xpath('./a/@href')
        book_price = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()')
        if not book_price:
            book_price = li.xpath('./div[@class="ebook_buy"]/p[@class&#