【练习】爬取页面数据单纯BeautifulSoup方法

爬取某小说网页面数据,获取文章标题、小说作者、小说类别、小说的描述和最后更新日期

因还未学到正则表达式,所以是用BeautifulSoup方法
声明:
1、 学生刚开始学习爬虫,代码会有很多不严谨,也较为粗糙,单纯用于广大网友参考,希望能起到一定的帮助
2、 如果要转载,请标记出来源
3、本文纯粹用于技术练习,请勿用作非法途径
代码行:

import requests
from bs4 import BeautifulSoup
response=requests.get("https://www.qidian.com/rank/recom/page%7B%7D/")
response.encoding=response.apparent_encoding
bs=BeautifulSoup(response.text,"html.parser")
book_content=bs.find_all('div',class_='book-mid-info')
for book in book_content:
    #搜索书名然后text函数去只收取标签内的文本内容
    book_name=book.find('h4').text
    #搜索作者名,在第一个a标签,a标签有class名就通过class名来定位
    author=book.find('p',class_="author").find('a',class_='name').text
    #小说类别,是作者p标签下的第二个a标签,这个a没有class名也没有id,无法定位..暂时只能用蠢.next定义到第二个a标签
    type=book.find('p',class_="author").find_next('a').find_next('a').text
    #小说简介
    intro=book.find('p',class_="intro").text
    #最近更新章节
    update=book.find('p',class_="update").find('a').text
    time=book.find('p',class_="update").find('span').text
    print("书名:%s 作者名:%s 小说类别:%s"%(book_name,author,type))
    #用strip方法去掉简介的空格否则只能爬到空格爬取不到内容
    print("书本简介:%s"%(intro.strip()))
    print("最后更新内容:%s 最后更新时间:%s"%(update,time))

输出结果:
内容太多所有截取部分

书名:大梦主 作者名:忘语 小说类别:仙侠
书本简介:一个从小体弱多病的富商之子,在寻求续命之法时,意外走上了修仙登天之路!大唐盛世,天下安泰,风调雨顺,百姓安居。千年后世,魔物吞天,妖鬼横行,遍野哀鸣。西游再现,大圣斗天,天蓬下凡,卷帘重生。莫名的穿梭与轮回,虚实掩映,真幻交织!是预言中的梦境?还是尚未发生的现实?他能否打破命中注定的魔障,消弭还未发生的三界大劫,挽救苍生于水火?
最后更新内容:最新更新 第一千四百五十六章 幕后 最后更新时间:2021-11-04 12:01
书名:大明疯皇 作者名:星辰玖 小说类别:历史
书本简介:两颗红丸下去,泰昌竟然没死。不过,他好像疯了!他竟然不管不顾弄死了先帝最宠爱的郑贵妃,抄了福王的家。他还教太子玩什么火炮火枪。他还教信王做生意,开设钱庄赚钱。他还动不动就御驾亲征,微服私访。他还想让士绅、勋贵、皇室宗亲一体纳粮。......泰昌只想说:朕没疯,你们才疯了,你们都是疯子!
最后更新内容:最新更新 022 猴急 最后更新时间:11-04 08:00
书名:这个人仙太过正经 作者名:言归正传 小说类别:仙侠
书本简介:半神之躯,比肩凡人!正经人仙,山海薅神!(正经版简介)天高九万里,地有无尽国。人道多不易,山海尽荒泽。【普一群:1071059242,普二群:1041155628,全订V群已开,在普群找管理就可。继续仙侠轻喜剧,非洪荒体系,取材《山海经》、《九歌》、《天问》,勿代入三清、道祖等人物,努力发掘更原生态的中国古典神话!】
最后更新内容:最新更新 第四百九十五章 啧,美人计 最后更新时间:2021-11-04 00:05
书名:皓玉真仙 作者名:小道不讲武德 小说类别:仙侠
书本简介:群号在每页的作者说里以及简介下方都能直接点进来。天地如棋盘,万物如棋子。待我执棋时,必将一袖推翻!假丹大能夺灵重修,携至宝,成就皓玉海千古第一真仙!不虐主,不后宫,不圣母。
最后更新内容:最新更新 第四百六十三章 大战金丹(上)(今天一万三千字更新,求支持!) 最后更新时间:2021-11-03 20:40
书名:灭神榜 作者名:无所住 小说类别:玄幻
书本简介:天英生于白骨,难描难画。凡人每修炼出一朵天英,可延寿十年;不断修炼,渡过劫难,方可破圣成神。体内没有一丝天英之力的吴缺,却在无意之中打开了遗落在这世界的第一扇“星门”。“星门”既开,炉火熊熊,再筑神榜!神榜成,神谕现。当吴缺历尽劫难,终于完成神谕使命,却惊讶发现:他的征途,才刚刚开始!
最后更新内容:最新更新 第380章 船位 最后更新时间:2021-11-03 20:00


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NeHAO_WU

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值