Python探险
文章平均质量分 67
HuaiGe0123
这个作者很懒,什么都没留下…
展开
-
用Python写爬虫(1)
一、网络爬虫与搜索引擎的关系 爬虫相当于眼睛和耳朵,是收集数据的。 引擎相当于大脑,是理解和处理数据的。 搜索引擎大致可分为四个子系统:下载系统、分析系统、索引系统、查询系统。而爬虫只是下载系统 上图是搜索引擎的一个简单抽象模型。 从中可以看出爬虫是搜索引擎的一部分,用于搜集信息(下载网页内容),搜集来的信息形成网页的备份,需要搜索引擎的其他部分经过一系列的分析整理后原创 2018-01-25 20:08:20 · 193 阅读 · 0 评论 -
用Python写爬虫(2)——Urllib库
本节我们练习使用Urllib库抓取网页 Urllib库是Python中用来操作URL的模块,在Python2和Python3中有一定的差异。我们使用的是Python3,具体两者之间的差异我们就不多说了。 导入模块urllib.request,这个模块用来打开和获取URL的。 import urllib.request使用urllib.request.urlopen打开并爬取一个网页。原创 2018-01-26 15:48:48 · 154 阅读 · 0 评论