python爬虫学习笔记(一)

8 篇文章 0 订阅
3 篇文章 0 订阅

前言

由于我也不是什么专业人士,我也是在学习,这个就是我自己的一个学习笔记,什么爬虫可以做什么,为什么学爬虫我就不再赘述了,总结一点,爬虫用来爬取网页上的东西!

python库

在python中用到urllib和urllib2,urllib是python原生的一个库,urllib2是python创始人觉得urllib不好使自己又做的。python3将两个库合成了一个urllib库,需要什么东西基本就是从这个库里拿。

我用的python3,用urllib库

import urllib.XXX

基本用法

接下来,是最基本的爬虫。

我们要用到urllib库里的urlopen,顾名思义,’url‘ ’open‘,这个函数用来打开一个网页,也就是将一个网页下载下来,根据我的理解,和我们直接用浏览器打开是一样的,不过我们直接打开可以直观的看到,而这个函数会返回一个bytes类型的数据,需要decode()解码。

解码,前提是你得先把那串数据读出来,这就要说到我们的第二个函数,read(),用于将bytes类型的数据读出来,以便于decode()解码。

接下来看代码

import urllib.request

response=urllib.request.urllib("http://www.baidu.com")
text=response.read().decode()
print(text)

能爬到百度的主页
在这里插入图片描述

爬到的是html的网页,如果要提取什么信息,需要我们后期处理.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值