python爬虫-第一步,获取页面

什么都不想写了,现在python3的教程太少了。还是转头学2去的
-2015-10-25 11:54

直到现在这个发表,已经过去半年了,
python的爬虫也学习了很多,做了一点点小东西玩

python爬虫的第一步
获取页面。
目前我所掌握的获取页面的方式有4个,就是最基本的获取,不涉及都文件和cookies

  1. urllib.urlopen()
  2. urllib2.urlopen()
  3. urllib2.Request()
  4. requests.get()
    第一个是
import urllib
urllib.urlopen(url).read()
#这里特别提一下
urllib.urlreleate(url,path)#可以直接保存网页内容到一个地方

第二个是

import urllib2
urllib2.urlopen(url).read()

第三个是

from urllib2 import Request
urllib2.Requests(url)

第四个是

import requests
requests.get(url).content
#如果不用comtent可以这样
requests.get(url).text

以上这四种方式是可以获取不需要cookie和header的网站的内容的,
获取下来之后用os库里面的文本方式保存,或者是上面介绍的urllib的方式保存到本地进行分析是一个很好的方法

下一节讲解怎么分析得到的网页用到三种方式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值