当当网爬虫手动实现
一、 分析url
当当网计算机网络网址为:
http://search.dangdang.com/?key=%BC%C6%CB%E3%BB%FA%CD%F8%C2%E7\&page_index=1
分析:key代表关键字编码,index为页面号,从网站中看出页面号有100页。所以在main中,page设置为:100。并且通过getUrls函数返回待爬取的url列表。
def getUrls(url,page=''):
urls = []
urls.append(url)
page = int(page)+1
for i in range(2,page):
urls.append(url[0:len(url)-1]+str(i))