python获取韩寒one(一个)中的图片和文章

    以前韩寒的one(一个)是腾讯帮忙维护的,网页是不让粘贴复制的,当然用某些方法还是可以做到的,现在启用了独立网站,感觉界面挺不错的,平时也比较喜欢里面的图片和文字,自己写了个程序爬一下里面的东西

import urllib
import os
import re
#获取网页源码
def getHtml(url):
    return urllib.urlopen(url).read()
#获取文章
def getContent(html):
    reg = re.compile(r'<.*?\"one-cita\">\s*(.*?)\s*</')
    result=reg.findall(html)
    return result[0]
#写入文章
def writeIn(result):
    #以a+的模式,如果是w+模式的话,后面的内容会将前面的内容覆盖
    fo=open('F:\python\one\one.txt','a+')
    fo.write(result+'\n')
    fo.close()
#下载图片
def getImg(html,i):
    #图片保存路径
    path='F:\python\one\%d.jpg' % i
    reg=re.compile(r'src="(.*?)\.jpg"')
    imgurl=reg.findall(html)
    urllib. urlretrieve(imgurl[0],path)
    return imgurl[0]
    
n=raw_input('input the number:')
print '----------start---------'
#需将i转化成int
for i in range(2,int(n)):
    print 'vol.%d' % i
    url='http://wufazhuce.com/one/vol.%d' % i
    print url
    html=getHtml(url)
    result=getContent(html)
    print getImg(html,i)
    print result
    writeIn(result)
print '-----------end-------------'

 




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值