爬取当当网图书信息

最新推荐文章于 2020-12-10 15:36:17 发布

单明火

最新推荐文章于 2020-12-10 15:36:17 发布

阅读量2.8k

点赞数 1

分类专栏： python爬虫

本文链接：https://blog.csdn.net/knowmore0823/article/details/78618131

版权

本文介绍了如何爬取当当网图书信息的全过程。首先通过抓取列表页获取每本书的详情页面URL，然后从这些URL中提取出每本书的详细信息，以获取完整的数据集。

摘要由CSDN通过智能技术生成

大体思路：
列表页数据条数完整，但单条数据信息不完整，所以先爬取列表页单条数据的url；
再从这个url中提取每条数据的详细信息。

import requests
import re
from bs4 import BeautifulSoup
import pandas as pd

n=0
name_list=[]
price_list=[]
r = requests.get("http://search.dangdang.com/?key=python&act=input")
html = r.text
book_url = re.findall('href="(.*?/\d{8}.html)"',html)
#在列表页爬取单条数据的url链接
for book in book_url: #遍历爬过来的url
    n=n+