python3 保存一个网页为html文件

我使用的python版本为3.5.2.

最近租房子,恨透了中介,想绕过中介去租。结果发现豆瓣同城里有好多二房东,感觉人都还不错。但是豆瓣这里没有信息检索的功能,只能人工地看房子的地址,非常地不方便。所以我想做一个程序,它具有的功能,第一可以获取每条租房信息的房间地址,第二可以计算出该地址与我公司的路线距离(不是直线距离,是步行要走的距离)。

所以第一个任务就是学习python爬虫。在搜了多方资料之后,我终于写了这个例子。该例子的功能为访问一个网址,保存它为html文件。这里需要注意的是好多网站会抵制爬虫的访问,会对你进行鉴别,判断你是不是通过浏览器访问的。所以本例访问了www.baidu.com,经测试,该网址可以通过这个例子来访问。

代码如下,pachong.py:

import urllib.request

def getHtml(url):
    html = urllib.request.urlopen(url).read()
    return html

def saveHtml(file_name,file_content):  
#    注意windows文件命名的禁用符,比如 /  
    with open (file_name.replace('/','_')+".html","wb") as f:
#   写文件用bytes而不是str,所以要转码  
        f.write( file_content )  
		
html = getHtml("http://www.baidu.com")
saveHtml("text1",html)

print ("结束")

运行结果是在pachong.py同级目录下生成一个text1.html文件用浏览器打开,就可以看到了。不过有的地方显示不出来。

程序主要有两个函数,第一个getHtml(url)  功能为打开一个url网络链接,把链接的内容读取出来,存在html变量里;第二个saveHtml(file_name,file_content)  功能为打开一个名为 file_name 的文件,把网页内容写进去。

调用起来也很简单。

参考引用:

1. shihui512 ,Python3爬虫之爬取某一路径的所有html文件  2016/4/8 http://m.blog.csdn.net/article/details?id=51100605


 

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值