没事干,就像爬爬樱花动漫
一,观察网页
樱花动漫有国漫,日漫,欧美,港台等分区,他们的网址有略微不同,类似于这样。
国漫:https://www.yhdmwz.com/gcdm.html
日漫:https://www.yhdmwz.com/rhdm.html
每个分区下面不止一页动漫,每页动漫地址也不一样,拿国漫举例,第一页:
https://www.yhdmwz.com/gcdm_1.html
第二页:
https://www.yhdmwz.com/gcdm_2.html
当然每个动漫的集数的地址也不一样,这就不举例了。
二,想要实现的功能
爬去樱花动漫的动漫视频和动漫的基本信息(所属分类,地区,更新日期,简介之类的)
三,分步实现
1.做到能在国漫,日漫,欧美,港台的选择,由于分区简单,这里就做一个 if elif 的选择就行,小功能做成函数,方便调用。
其返回的网址就是你要用的url。然后就可以使用这个url去取得response响应通过response =requests.get(url)。我这里用了BeautifulSoup4解析
然后通过find_all()去取得分区下每页的地址。
二,通过每页的url获取当页下的动漫。