爬虫学习

爬虫学习:

1.保存HTML网页为本地文件,用到:

req=urllib2.Request(url,headers=headers)#发送请求
response=urllib2.urlopen(req)#获得并访问请求

page=response.read()

f=file("newname.html","w")
f.write(page)
f.close()

例子如下:

#本程序的目的,为了将需要的网页保存为本地文件,方便以后个人查询
#本程序仅仅是下载网页到本地(可以看成是将网页另存为本地文件)
#故没有涉及到模拟访问等内容
#文件保存命名时,推荐使用关键字眼,如“正列式”,"urllib2",方便配合
#Everything搜索使用
# -*- coding: utf-8 -*-
import string, urllib2

#定义下载函数
def dowmload(url,inputname):
    sName = str(inputname) +'.html' #为新建文件指明名字及格式。

    print 'downloading...' + 'and save as  ' + sName + '...'

    f = file(sName,'w+')#“下载”即是保存为当地新建文件。

    m = urllib2.urlopen(url).read() #网页内容转化为文本

    f.write(m)#将上述文本写入新建的文件f当中

    f.close()#关闭

#-------- 在这里输入参数 ------------------
print  "***你好,欢迎使用本程序!***"
print "***开始下载网页到你电脑上!***"
print "!!!注意:主要是下载文字信息!!!"
url = str(raw_input(u'请输入需要下载HTML的地址(回车):\n'))
inputname = raw_input(u'请输入文件名称(回车):\n')
#-------- 在这里输入参数 ------------------

#调用
dowmload(url,inputname)

2.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值