Python 获取txt

#get jingdong.com 获取京东电子书
#coding=utf8
import re,urllib
#-------------取得目录
def getlist(url):
    #获取目录的正则表达式
    re_jdebook = r'<li(.+?)</li>'
    #'\r\n'代替换行
    ##re_jdebook = r'<a href="(.+?)"\r\n +?title="(.+?)">\r\n'
    page = urllib.urlopen(url).read()
    #re.DOTALL Make the '.' special character
    #match any character at all, including a newline
    #匹配任何符号,包括换行
    r1=re.compile(re_jdebook,re.DOTALL)
    content = re.findall(r1,page)
    return content

#---------------------取得每一篇文章的内容
def getOne(address):
    rr = r'<p>(.+?)</p>'#r'<div id="zoom">(.+?)</div>'
    paper = urllib.urlopen(address).read()
    rr1=re.compile(rr,re.DOTALL)
    cont = re.findall(rr1,paper)
    #for para in cont:
        #print para
    return cont

#---------download ebook
def downloadbook(content,bookname='book'):
    book = []
    for cc in content:
        if url in cc:
            ncc = re.findall(r'<a href="(.+?)"\r\n +?title="(.+?)">\r\n',cc)
            print ncc[0][0],ncc[0][1]
            book.append(ncc[0][1])
            book += getOne(ncc[0][0])
            book.append('\n')

    f = open(bookname+".txt",'w+')
    for line in book:
        f.write(line+'\n')
    f.close()
#-----------
#目录页地址
url = 'http://read.jd.com/4281/'
downloadbook(getlist(url),u'日月')#中文前加'u'防止产生乱码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值