python2 爬虫_爬虫1_python2

最新推荐文章于 2021-02-04 11:04:29 发布

weixin_39520880

最新推荐文章于 2021-02-04 11:04:29 发布

阅读量42

点赞数

文章标签： python2 爬虫

# -*- coding: UTF-8 -*-

# python2爬虫

import urllib

f = urllib.urlopen("http://www.itcast.cn/")

print f.readline() # 读取html页面的第一行

print f.read() # ，读取源代码，该网址源代码为utf-8格式

# read(),readline(),readlines(),fileno(),close(),这些使用方法与文件对象完全一样

print f.info() # 获取网页所在服务器的头部信息

print f.getcode() # 获取网页状态码

print f.geturl() # 返回请求的url

f.close() # 打开文件后，记得一定关闭防止内存没有回收，后果不堪回想

print urllib.urlopen('http://www.itcast.cn/23644657dafhgsg').getcode()

# 网页状态码

# 200正常访问 301重定向

# 302临时重定向（不常见） 404网页不存在 403禁止访问 500服务器忙，无响应，过会才行

# HTTP权威指南，专门介绍http协议，Web开发和服务器端开发方向必备

url = 'http://www.163.com/'

html = urllib.urlopen(url) # 打开网页

print html.read().decode('gbk').encode('utf-8') # 该网址源代码格式是gb2312，全部统一成gbk，然后再转化为utf-8格式

print html.read().decode('gbk','ignore').encode('utf-8')#当一些小网站编码混乱不规范时，可用'ignore'来帮助解决

# 总结

# urllib 简单易用的抓取模块

# urllib.urlopen()方法，获得类文件对象

# read()读取文件内容

# info()获取网页Header信息

# getcode()获取网页状态码

# geturl()获取传入的网址url

f = urllib.urlopen('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG')

print f.getcode() # 查看是否能打开

print f.readline() # 图片的内容看不懂

f.close()

# urlretrieve方法将url定位到的html文件下载到你的本地硬盘中。如果不指定filename，则会存为临时文件。

urllib.urlretrieve('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG', filename='D:\pachong\worm1.jpg')

url = "http://www.itcast.cn/"

urllib.urlretrieve(url, 'D:\\pachong\\download.txt') # 网页抓取，下载网页(也可以将txt格式转成html)

urllib.urlretrieve(url, 'D:\\pachong\\download.html')

weixin_39520880

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python2 爬虫_爬虫1_python2

# -*- coding: UTF-8 -*-# python2爬虫import urllibf = urllib.urlopen("http://www.itcast.cn/")print f.readline() # 读取html页面的第一行print f.read() # ，读取源代码，该网址源代码为utf-8格式# read(),readline(),readlines(),filen...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。