今天开始我将简单介绍一下网络爬虫,并开始带大家学习如何写爬虫
一、爬虫介绍
1、什么是爬虫?
你可以把互联网想想成一个巨大的蜘蛛网,而爬虫就是一个小蜘蛛在网的各个节点中穿梭。 就像探测机器一样,基本操作就是模拟人去浏览各个网站,浏览数据,查看信息。
2、爬虫可以做什么?
(1)抢火车票:
这应该是爬虫行业中使用量最大,很多抢票软件每秒对12306扫数千数万次。
(2)刷浏览量:
爬虫重灾区应该是微博无疑了,爬虫代码指向微博的某一个接口,可以获取用户的微博列表,微博动态,等等信息。
有的人用爬虫指挥机器人,来打开某人的微博进行点赞、评论或留言。也就是微博上所谓的僵尸粉(去年某坤微博转发过亿次还记得吗)。
还有很多更“好玩”的用处,这里就不废话了
二、正式开始学习
想写爬虫,首先要了解 URL:
统一资源定位符(Universal Resource Locator),简单说就是表示资源的地址(我们说某个网站的网址就是 URL)。
1、urllib.request.urlopen()函数
urllib 是一个软件包,收集了几个用于处理URL的模块 :
.
urllib.request : 用于打开和阅读URL
.
urllib.error : 包含由引发的异常 urllib.request
.
urllib.parse : 用于解析URL
.
urllib.robotparser : 用于解析robots.txt文件
urllib.request—用于打开URL的可扩展库
urllib.request