爬虫
Mr_fengzi
人生苦短,我用Python
展开
-
爬虫基础知识详解
通用爬虫与聚焦爬虫根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种。通用网络爬虫 是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。通用搜索引擎(Search Engine)工作原理:利用通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整...原创 2019-08-08 11:03:39 · 323 阅读 · 0 评论 -
爬虫案例 图片下载器实现
制作爬虫的基本步骤需求分析分析网页源代码,配合F12编写正则表达式或者其他解析器代码正式编写python爬虫代码需求分析:“我想要图片,我又不想上网搜”“最好还能自动下载”……这就是需求,至少要实现两个功能,一是搜索图片,二是自动下载。分析网页打开网页之后,然后按F12就可以查看网页信息,可以对网页进行分析。再点击上面的Network选项卡,刷新之后点击出现的第一个网址,...原创 2019-08-08 11:49:54 · 256 阅读 · 0 评论 -
爬虫必备的防止反爬虫策略
urllib模块在介绍关于防止反爬虫策略之前,先学习另一个爬虫方法。在之前的文章中提到了最常用的爬虫方式就是调用requests模块,下面介绍另一个方法,就是调用urllib模块,然后利用里面的urlopen和read方法去获取网页信息。下面以百度为例,利用urllib模块获取百度页面信息,具体代码如下:"""python3: urllib urllib.request...原创 2019-08-08 13:35:18 · 13656 阅读 · 1 评论 -
爬虫必备Beautiful Soup (bs4)模块入门
什么是Beautiful Soup?和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据,lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简...原创 2019-08-08 15:06:08 · 529 阅读 · 0 评论 -
基于bs4的CSDN博客归档案例
通过上一篇文章我们学习到,利用bs4可以对分析后的网页获取页面的内容。这篇文章将对我的CSDN博客页面分析之后,提取其中有用的信息, 比如文章标题以及文章链接等。然后对提取到的文章信息进行归档处理。最后将获取到的信息保存到指定的文件中。我在这里只以博客第一页为例,其他页的文章可以通过修改url中的属性值获取,直接上代码, 代码如下:import requestsdef get_conte...原创 2019-08-12 09:35:29 · 211 阅读 · 0 评论