地址栏url格式
https://book.douban.com/tag/小说?start=0&type=T
真实url
https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T
在地址栏显示的是小说可是真实的URL是个并不是图书2个字,而是一串乱码
可以用urllib.quote()进行转换
其中第一页start=0
每向后一页,+20
由于有的书的信息不全(比如当点评人数不足时,没有评分,所以用了很多的try,不然很容易会出错停止)
#读取每本书的信息
for i in xrange(len(all_books)):
try:
book_name = all_books[i].find('a', att