以前韩寒的one(一个)是腾讯帮忙维护的,网页是不让粘贴复制的,当然用某些方法还是可以做到的,现在启用了独立网站,感觉界面挺不错的,平时也比较喜欢里面的图片和文字,自己写了个程序爬一下里面的东西
import urllib
import os
import re
#获取网页源码
def getHtml(url):
return urllib.urlopen(url).read()
#获取文章
def getContent(html):
reg = re.compile(r'<.*?\"one-cita\">\s*(.*?)\s*</')
result=reg.findall(html)
return result[0]
#写入文章
def writeIn(result):
#以a+的模式,如果是w+模式的话,后面的内容会将前面的内容覆盖
fo=open('F:\python\one\one.txt','a+')
fo.write(result+'\n')
fo.close()
#下载图片
def getImg(html,i):
#图片保存路径
path='F:\python\one\%d.jpg' % i
reg=re.compile(r'src="(.*?)\.jpg"')
imgurl=reg.findall(html)
urllib. urlretrieve(imgurl[0],path)
return imgurl[0]
n=raw_input('input the number:')
print '----------start---------'
#需将i转化成int
for i in range(2,int(n)):
print 'vol.%d' % i
url='http://wufazhuce.com/one/vol.%d' % i
print url
html=getHtml(url)
result=getContent(html)
print getImg(html,i)
print result
writeIn(result)
print '-----------end-------------'