python抓取网页

最新推荐文章于 2024-08-27 12:59:20 发布
bcafu
最新推荐文章于 2024-08-27 12:59:20 发布
阅读量96
点赞数
文章标签： Python OS Blog Socket 正则表达式
import re
import io
import sys
import os
import time
import socket
import locale
import datetime
from urllib.request import urlopen
from urllib.parse import urlparse

#正则表达式
pattern1="""<a  href="(http:.*?)">博文目录</a>"""
prog1 = re.compile(pattern1)
pattern2="""<a title="(.*?)" target="_blank" href="(.*?)">.*?</a>"""
prog2=re.compile(pattern2)
pattern3="""<a href="([^"]+)" title="[^"]+">下一页"""
prog3=re.compile(pattern3)
pattern4="""<!--博文正文 begin -->[\\s\\S]*?<!-- 正文结束 -->"""
prog4=re.compile(pattern4)
pattern5="""(src="[^"]+"( real_src ="([^"]+)\"))"""
prog5=re.compile(pattern5)

def save_to_file(url,filename,blog_address):
    """url为博文地址，filename为要保存的文件名，默认后缀为html
    """

    if os.path.exists(blog_address)==False:
        os.makedirs(blog_address)
    filename=ReplaceBadCharOfFileName(filename)
    file_no=0
    while os.path.isfile(blog_address+'/'+filename+'.html')==True:
        filename=filename+'('+file_no.__str__()+')'
        file_no+=1
    url_file=urlopen(url)
    t=b''
    while True:
        s=url_file.read(1024)
        if not s:
            break
        t+=s     
    t=t.decode('utf8')
    url_file.close()
    t=_filter(t)
    if t is None:
        raise Exception
    #将图片保存到本地
    result=prog5.findall(t)
    i=1
    for pic in result:
        folder=blog_address+'/'+filename+'/'
        pic_name='image'+i.__str__()+'.gif' 
        if os.path.exists(folder)==False:
            os.makedirs(folder)
        try:

            url_file=urlopen(pic[2])
            file = open(folder+pic_name,'wb')
            while True:
                s=url_file.read(1024)
                if not s:
                    break
                file.write(s)
            file.close()
        except:
            print('噢，保存图片的时候出现问题了，跳过此张图片...')
            print("Unexpected error:", sys.exc_info()[0],sys.exc_info()[1])
        else:
            print('保存图片成功...')
            #替换正文中的图片地址
            t=t.replace(pic[0],"src=\""+filename+"/"+pic_name+"\""+pic[1],1)
            i=i+1
    file=open(blog_address+'/'+filename+'.html','wb')
    file.write(t.encode('utf8'))
    file.close()

#提取文本中的正文部分
def _filter(t):
    result=prog4.search(t)
    if result is not None:
        return '<html><head></head><body>'+result.group()+'</dody></html>'
    else:
        print('噢，提取正文出错了……')
        return None

#去掉文件名的不合法字符 
def ReplaceBadCharOfFileName(filename):
    filename=filename.replace(" ","")
    filename=filename.replace("\\", "")
    filename=filename.replace("/", "")
    filename=filename.replace(":", "")
    filename=filename.replace("*", "")
    filename=filename.replace("?", "")
    filename=filename.replace("<", "")
    filename=filename.replace(">", "")
    filename=filename.replace("|", "")
    filename=filename.replace("&","")
    filename=filename.replace(";","")
    return filename

#主函数
#准备阶段
blog_no=1#博文编号
begin=1#起始博文
end=0#结束博文
page=1#页码
saved=0#成功保存的篇数
timeout = 60*5#超时设为5分钟
socket.setdefaulttimeout(timeout)#这里对整个socket层设置超时时间。后续文件中如果再使用到socket，不必再设置
blog_address=input("请输入您的博客地址（输入最后部分即可，比如您的博客地址是http://blog.sina.com.cn/xiaoshuai\
，只要输入xiaoshuai）：")
begin=input('从第几篇开始：')   
begin=locale.atoi(begin)
while begin<=0:
    begin=input('请输入大于0的数：')
    begin=locale.atoi(begin)
end=input('到第几篇结束（到最后请输入0）：')
end=locale.atoi(end)
while end<0:
    end=input('请输入大于等于0的数：')
    end=locale.atoi(end)
if end==0:
    print('您的博客地址是：http://blog.sina.com.cn/'+blog_address+'，保存第'+begin.__str__()+'篇到最\
后一篇博文')
else:
    print('您的博客地址是：http://blog.sina.com.cn/'+blog_address+'，保存第'+begin.__str__()+'篇到第'\
          +end.__str__()+'篇的博文')
starttime = datetime.datetime.now()
request=urlopen('http://blog.sina.com.cn/'+blog_address)
text = request.read().decode('utf8')
request.close()
time.sleep(0.5)

#提取“博文目录”的url
result = prog1.search(text)
if result is not None:
    print ('博文目录地址：',result.group(1))
    url_file=urlopen(result.group(1))
    text = url_file.read().decode('utf8')
    url_file.close()
    time.sleep(0.5)
else:
    print('提取博文目录地址失败')
    #终止程序运行
    sys.exit()
#查找每一页的全部博文，分析、提取、保存 
while True:
    print('开始备份第',page,'页')
    page+=1
    result=prog2.findall(text)
    for blog in result: 
        if blog_no<begin:
            blog_no+=1
            pass
        elif end!=0 and blog_no>end:
            break
        else:
            try:
                save_to_file(blog[1],blog[0],blog_address)
            except:
                print('噢，保存第',blog_no,'篇博文',blog[0],'的时候出现问题了，跳过...')
                blog_no+=1
                print("Unexpected error:", sys.exc_info()[0],sys.exc_info()[1])
            else:
                print('成功保存了第',blog_no,'篇博文:',blog[0])
                blog_no+=1
                saved+=1
                time.sleep(1)
    #判断是否有下一页
    result=prog3.search(text)
    if result is not None:
        url_file=urlopen(result.group(1))
        text=url_file.read().decode('utf8')
        url_file.close()
    else:
        break
print('博客备份完成！共备份',saved,'篇博文')
endtime = datetime.datetime.now()
print ('共用时:',endtime - starttime)
input('按回车键退出...')
bcafu
关注
0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python抓取网页

[code="python"]import reimport ioimport sysimport osimport timeimport socketimport localeimport datetimefrom urllib.request import urlopenfrom urllib.parse import urlparse#正则表达式...
复制链接

扫一扫