声明:
1、 学生刚开始学习爬虫,代码会有很多不严谨,也较为粗糙,单纯用于广大网友参考,希望能起到一定的帮助
2、 如果要转载,请标记出来源
3、本文纯粹用于技术练习,请勿用作非法途径
做题途中所遇问题:
1,for循环一直不出现。然后发现是return放在了后面一个for循环。导致一直只有一个页面,python间距的重要性
2.出现作者名为空的问题,就读取不到内容导致报错,可以使用try.except进行判断在输出
import requests
from bs4 import BeautifulSoup
import xlwt
def main():
html="http://bang.dangdang.com/books/fivestars/1-"
list=getData(html)
savepath=".\\图书记录200条.xls"
saveData(list,savepath)
def getData(html):
list=[]
for i in range(1,11): #调用获取页面信息的函数10次
url=html+str(i)
requests=askURL(url) #保存获取到的网页源码
# 由于要先爬取数据再保存成文件,运用函数来分布功能,方便管理
bs=BeautifulSoup(requests.text,"html.parser")
book_content

初学者通过Python进行网页爬虫练习,遇到并解决了循环问题与数据缺失处理,成功抓取了200条图书信息,并将数据保存到Excel文件中。强调了代码格式和异常处理在编程中的重要性。
最低0.47元/天 解锁文章

1万+

被折叠的 条评论
为什么被折叠?



