爬虫学习

最新推荐文章于 2024-08-21 11:22:17 发布

asfkhj32432423

最新推荐文章于 2024-08-21 11:22:17 发布

阅读量402

点赞数

分类专栏：书籍阅读总结等文章标签：爬虫

本文链接：https://blog.csdn.net/LQ122333/article/details/77875800

版权

书籍阅读总结等专栏收录该内容

5 篇文章 0 订阅

订阅专栏

爬虫学习：

1.保存HTML网页为本地文件，用到:

req=urllib2.Request(url,headers=headers)#发送请求
response=urllib2.urlopen(req)#获得并访问请求

page=response.read()

f=file("newname.html","w")
f.write(page)
f.close()

例子如下：

#本程序的目的，为了将需要的网页保存为本地文件，方便以后个人查询
#本程序仅仅是下载网页到本地（可以看成是将网页另存为本地文件）
#故没有涉及到模拟访问等内容
#文件保存命名时，推荐使用关键字眼，如“正列式”，"urllib2"，方便配合
#Everything搜索使用
# -*- coding: utf-8 -*-
import string, urllib2

#定义下载函数
def dowmload(url,inputname):
    sName = str(inputname) +'.html' #为新建文件指明名字及格式。

    print 'downloading...' + 'and save as  ' + sName + '...'

    f = file(sName,'w+')#“下载”即是保存为当地新建文件。

    m = urllib2.urlopen(url).read() #网页内容转化为文本

    f.write(m)#将上述文本写入新建的文件f当中

    f.close()#关闭

#-------- 在这里输入参数 ------------------
print  "***你好，欢迎使用本程序！***"
print "***开始下载网页到你电脑上！***"
print "！！！注意：主要是下载文字信息！！！"
url = str(raw_input(u'请输入需要下载HTML的地址(回车)：\n'))
inputname = raw_input(u'请输入文件名称（回车）：\n')
#-------- 在这里输入参数 ------------------

#调用
dowmload(url,inputname)