学习Python(2)

 看视频,练习下下载博客
 #-*-coding:utf-8 -*-
import urllib
import time

'''http://www.cppblog.com/woaidongmao/category/6007.html'''

"""<a id="CategoryEntryList1_EntryStoryList_Entries_ctl00_TitleUrl"
href="http://www.cppblog.com/woaidongmao/archive/2012/01/12/164064.html">"""

url=[" "]*50  #定义一个列表
h = "http://www.cppblog.com/woaidongmao/category/6007.html"
con = urllib.urlopen(h).read()

title = con.find('TitleUrl"')
href = con.find('href=',title)
html = con.find('.html',href)

i=0
while title!=-1 and href!=-1 and html!=-1 and  i<50:
    url[i]= con[href+6:html+5]
    print '%d url:'%i, url[i]
    title = con.find('TitleUrl"',html)
    href = con.find('href=',title)
    html = con.find('.html',href)    
    
    i=i+1

j = 0
while j <=3:   
    c = urllib.urlopen(url[j]).read()
    open('D:/py_Script/0409/'+ url[j][-11:],'w').write(c)  
    time.sleep(15)
    j = j+1



 

 上面下载后保存是:.html文件

如何保存.txt文件,下面的是更新部分

#-*-coding:utf-8 -*-
import urllib
import time
import re

'''http://www.cppblog.com/woaidongmao/category/6007.html'''

"""<a id="CategoryEntryList1_EntryStoryList_Entries_ctl00_TitleUrl"
href="http://www.cppblog.com/woaidongmao/archive/2012/01/12/164064.html">"""

url=[" "]*40 #定义数列
h = "http://www.cppblog.com/woaidongmao/category/6007.html"
con = urllib.urlopen(h).read()

title = con.find('TitleUrl"')
href = con.find('href=',title)
html = con.find('.html',href)

i=0
while title!=-1 and href!=-1 and html!=-1 and  i<40:
    url[i]= con[href+6:html+5]
    title = con.find('TitleUrl"',html)
    href = con.find('href=',title)
    html = con.find('.html',href)    
    print '%s'%i, url[i]
    i=i+1

print "find finish"

j = 0
while j <=5:   
    c = urllib.urlopen(url[j]).read()
    body = c.find(r'postbody">')
    div = c.find(r'</div',body)
    new_conment = c[body+10:div] #找到博文的内容部分
    '''
<div class="postbody">
<p>以XML为例,需要做成独立的文件,如下:</p> 
<p>1、人手改,程序只读入</p> 
<p>2、程序读入,并写出的一类</p>
</div>
    '''
    p=re.compile('<[^>]+>')
    new = p.sub("",new_conment)  #剔除html语言部分
    open('D:/Python_Data/download/'+ url[j][-11:-5]+'.txt','w').write(new)  
    time.sleep(15)
    j = j+1
    
print "download end"


 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值