Python Requests和urllib两种方式下载网页到本地

最新推荐文章于 2025-01-09 09:13:56 发布

原创最新推荐文章于 2025-01-09 09:13:56 发布 · 1.2w 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python

python 专栏收录该内容

11 篇文章

订阅专栏

目标：针对网页用requests和urllib两种方式将文件内容下载到本地txt文件中。
网页：百度首页 http://www.baidu.com
Requests方式：

# -*-coding:UTF-8 -*-
import requests
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

def getWebPage(url):
    try:
        urlpage = requests.get(url)
    except IOError:
        print "IOError"
    '''
    urlpage.text中包含网页的源码内容
    '''
    WebPageDownload(urlpage.text)

def  WebPageDownload(text):
    '''
    将下载的网页保存到file.txt文件中
    '''
    ff = open("baiduPageByRequests.txt",'w')
    ff.writelines(text)
    ff.close()

if __name__ == '__main__':
   getWebPage(url='http://www.baidu.com')

urllib方式：

# -*-coding:UTF-8 -*-
from urllib import urlretrieve


def getWebPage(url):
    try:
        '''
        urlretrieve函数会将url定位的网页下载到临时文件中
        '''
        revtal = urlretrieve(url)[0]
    except IOError:
        revtal = None
    if revtal:#如果revtal不为空的话，说明网页下载成功了，那么我们就可以去处理它了
        saveWebPage(revtal)

def saveWebPage(webpage):
    '''
    将下载的网页保存到file.txt文件中
    '''
    f = open(webpage)#将下载的临时文件打开
    lines = f.readlines()#将下载的网页信息保存到lines中
    f.close()#关闭文件对象

    fobj = open("baiduPageByurllib.txt",'w')#以写的方式打开file.txt,如果file.txt不存在，那么将创建一个
    fobj.writelines(lines)#将网页信息写入file.txt中
    fobj.close()#关闭文件对象


if __name__ == '__main__':
   getWebPage(url='http://www.baidu.com')