环境:
网站分析:
接着我们点开网页源码,看下面之处
接着我们把那个下面画红线的链接点开,可以看到是个视频。
接着我们点开网页源码。
基本上就是这么个套路,也就用了python的两个模块 一个urllib 一个re正则
效果图:
这个是我爬下来的图片
这个是我爬下来的视频
这个是我把Linux上的视频拖一下到Windows上给大家看效果。
下面直接上代码!!!
爬视频的代码
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib,re
def geturl():
html = urllib.urlopen("http://www.budejie.com/video/").read()
reg = r'data-mp4="(.*?)"'
return re.findall(reg,html)
for page in range(1,100):
for i in geturl():
print i #i是视频的链接地址
video = urllib.urlopen(i).read()
fwc = open('./video/%s' %i.split('/')[-1],'wb')
fwc.write(video)
fwc.close()
爬图片的代码
# -*- coding:utf-8 -*-
import urllib,re
def geturl():
html = urllib.urlopen("http://www.budejie.com/pic/").read()
reg = r'data-original="(.*?)"'
return re.findall(reg,html)
for page in range(1,100):
for i in geturl():
print i #i是图片的链接地址
video = urllib.urlopen(i).read()
fwc = open('./picture/%s' %i.split('/')[-1],'wb')
fwc.write(video)
fwc.close()