初学者学习爬虫爬取当当网会比较容易,因为当当没有反爬虫 import requests from lxml import html name = input('请输入要搜索书籍的信息:') # 1.准备url url = "http://search.dangdang.com/?key={}&act=input".format(name) start = 1 while True: print(start) start += 1 # 2.发送请求 response = requests.get(url) # 3.获取相应数据 str = response.text # 4.将字符串转换为element对象 element = html.fromstring(str) # 5.提取数据 # 5.1先分类 li_list = element.xpath('//div[@id="search_nature_rg"]/ul/li') # 5.2再获取数据 for li in li_list: book_name = li.xpath('./a/@title') book_link = li.xpath('./a/@href') book_price = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()') if not book_price: book_price = li.xpath('./div[@class="ebook_buy"]/p[@class&#
爬虫爬取当当网书籍
最新推荐文章于 2024-04-16 03:06:34 发布
这篇博客介绍了如何使用Python爬虫从当当网抓取书籍信息。通过输入书籍名称,利用requests库发送HTTP请求,然后用lxml库解析HTML,提取书籍的名称、链接和价格,并保存到文件中。由于当当网没有严格的反爬策略,初学者可以轻易上手实践。
摘要由CSDN通过智能技术生成