前言
天天敲代码,看着逐渐光滑的头顶,那么有啥可以让我的心灵得到稍稍的安慰吗
这时一位大爷给了我们答案
那来吧,开整。
分析页面
来到主页界面看一下
首先第一步要拿到视频封面链接的视频页面地址,然后顺着这个地址点进去,就来到了视频播放页面
来到这个页面之后,我们抓取一下请求,发现居然没有视频的请求,这就说明很有可能视频链接就在页面的源代码中,凭借着多年的初级爬虫经验,我们在源代码中搜索一下“play”
快看,不就隔这呢
那么整个流程欧克了,就可以开始写爬虫代码了
具体代码
拿取视频播放页面的url
这里利用xpath的方式来拿取url,这样的方式相对于正则表达式来说更加简单,正好这里推荐一个插件xpath helper,测试xpath非常好用
下面借助这个插件先测试下我写的xpath
这不就全出来了
实现代码
html = requests.get(url)
html.encoding = 'utf-8'
htmltext = str(html.text)
dom_tree = etree.HTML(htmltext)
htmlurls = dom_tree.xpath('//span[@class="cover"]/a/@href')
拿取视频的src
这里就要使用正则表达式了
使用到的正则表达式如下
# 拿取视频的url
videolink = re.compile(r'id="play-video" src="(.*?)"', re.S)
这样视频链接就拿到了,就可以开始下载了
成果
这一波可以看好久了
总结
最后还是那一句话
仅供学习,侵权立删
这次还是一个很简单的爬虫,最近一直没时间去搞一下稍微难一些的爬虫,等以后有机会在搞,除了这个还有许多简单的爬虫示例,有兴趣的可以来看一下,都很适合初学者。
聊天没有表情包被嘲讽,程序员直接用python爬取了十万张表情包