福利又来咯,这次是SACC 2016大会PPT汇总下载包。
这是知数堂Python运维开发班一位同学随手写的Python小程序,把SACC 2016大会的PPT都给爬下来打包了。
PPT合集下载地址:https://pan.baidu.com/s/1i5O9ygX,也可以识别下方二维码直达(此次爬PPT的Python小程序也在下载地址中)
来秀一下这个小程序吧,嘿
#!/usr/bin/env python
#coding:utf8
"""
Run on Linux
"""
import
os
import
re, urllib
#创建目录
_dir
=
'SACC2016'
if
not
os.path.isdir(_dir):
os.mkdir(_dir)
def
geturlsrc(url):
src
=
urllib.urlopen(url)
html
=
src.read()
return
html
def
getdsturl(html):
#正则匹配各主(专)场URL
urlreg
=
r
'<li><a href="(http:.*)">'
urlre
=
re.
compile
(urlreg)
urls
=
re.findall(urlre,html)
for
url
in
urls:
html
=
geturlsrc(url)
#正则匹配pdf文件URL
pdfreg
=
r
'<li><a href="(http:.*-)(.*).pdf" target="_blank">• (.*)</a><a href'
pdfre
=
re.
compile
(pdfreg)
pdfs
=
re.findall(pdfre, html)
#下载
for
i
in
pdfs:
url
=
i[
0
]
+
i[
1
]
+
".pdf"
_filename
=
i[
1
]
+
"-"
+
i[
2
]
+
".pdf"
filename
=
re.sub(
'/'
,
'_'
, _filename)
url, filename
urllib.urlretrieve(url, _dir
+
'/'
+
filename)
url
=
geturlsrc(
'http://sacc.it168.com/PPT2016/'
)
getdsturl(url)
最后再次感谢大家对知数堂培训的支持和关注!
老叶茶馆自营传统正味铁观音,自饮或馈赠均可,欢迎下单购买,有需要的识别下方二维码或访问 http://yejinrong.com 直达