代码块
# -*- coding: utf-8 -*-
import urllib2
import re
#定义需要获取龙珠超下载链接的网址
url="http://www.80s.tw/dm/15093"
htmls=urllib2.urlopen(url)
html=htmls.read()
htmls.close()
#定义正则表达式,并捕获分组1,分组2
pattern=ur'<a rel=\"nofollow\" href=(\"[^\">]+)\"[\s]?>[^\d]*([\d]*)[^\d]+</a>'
#定义一个列表,用于存储集数和链接
lists=[]
for i in re.findall(pattern,html)[1:20]:
#print i
lists.append([i[0],i[1]])
#导入pandas库,将列表转换为数据框
import pandas as pd
data=pd.DataFrame(lists)
#定义导出文件目录
outputfile='../result_data/lzc_source.xls'
data.to_excel(outputfile)