python爬虫学习笔记（一）

最新推荐文章于 2023-10-17 00:05:02 发布

Whale_XM

最新推荐文章于 2023-10-17 00:05:02 发布

阅读量197

点赞数

分类专栏： python 程序 # 爬虫

本文链接：https://blog.csdn.net/weixin_43360152/article/details/104634249

版权

24 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

由于我也不是什么专业人士，我也是在学习，这个就是我自己的一个学习笔记，什么爬虫可以做什么，为什么学爬虫我就不再赘述了，总结一点，爬虫用来爬取网页上的东西！

在python中用到urllib和urllib2，urllib是python原生的一个库，urllib2是python创始人觉得urllib不好使自己又做的。python3将两个库合成了一个urllib库，需要什么东西基本就是从这个库里拿。

我用的python3，用urllib库

import urllib.XXX

接下来，是最基本的爬虫。

我们要用到urllib库里的urlopen，顾名思义，’url‘ ’open‘，这个函数用来打开一个网页，也就是将一个网页下载下来，根据我的理解，和我们直接用浏览器打开是一样的，不过我们直接打开可以直观的看到，而这个函数会返回一个bytes类型的数据，需要decode()解码。

解码，前提是你得先把那串数据读出来，这就要说到我们的第二个函数，read(),用于将bytes类型的数据读出来，以便于decode()解码。

接下来看代码

import urllib.request

response=urllib.request.urllib("http://www.baidu.com")
text=response.read().decode()
print(text)

能爬到百度的主页
在这里插入图片描述

爬到的是html的网页，如果要提取什么信息，需要我们后期处理.

关注

专栏目录