当当网爬虫手动实现
一、 分析url
当当网计算机网络网址为:
http://search.dangdang.com/?key=%BC%C6%CB%E3%BB%FA%CD%F8%C2%E7\&page_index=1
分析:key代表关键字编码,index为页面号,从网站中看出页面号有100页。所以在main中,page设置为:100。并且通过getUrls函数返回待爬取的url列表。
def getUrls(url,page=''):
urls = []
urls.append(url)
page = int(page)+1
for i in range(2,page):
urls.append(url[0:len(url)-1]+str(i))

本文详述了手动实现当当网爬虫的过程,包括分析URL、爬取数据、数据解析、数据处理及总结反思。通过Requests包进行请求,使用XPath提取书籍名称、链接和评论数,并将数据存储到数据库。
最低0.47元/天 解锁文章

868

被折叠的 条评论
为什么被折叠?



