本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
目标:爬取b站番剧最近更新
输出格式:名字+播放量+简介
那么开始撸吧~
用到的类库:
requests:网络请求
pyquery:解析xml文档,像使用jquery一样简单哦~
1.分析页面布局,找到需要爬取的内容
目标url:
https://bangumi.bilibili.com/22/
设计video类:
import requests
from pyquery import PyQuery as pq
class Video(object):
def __init__(self,name,see,intro):
self.name=name
self.see=see
self.intro=intro
def __str__(self):
return "{}--{}--{}".format(self.name,self.see,self.intro)
分析完页面,设取爬去类:
class bilibili(object):
host="https://bangumi.bilibili.com"
<