![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 73
Moluth
老衲自西方极乐世界来
展开
-
爬虫系列(一)--爬虫开端
爬虫系列(一)--爬虫开端又是很久没有写文章了,这段时间工作中积累了很多。实践了不少网站的爬取,不写下来怕烂在脑子里,最终什么也不剩。爬虫这个分类已经建立很久了,里面文章数量始终是0,今天决定打破这0的寂静。发现新版本的csdn编辑器不会用了,尴尬。。。以后文章只好换风格了。开始对爬虫了解是从毕业设计开始的,毕设写的是一个基于C语言TCP编程的web服务器。 功能类似于Tomcat,Ngi...原创 2018-09-08 15:25:51 · 1555 阅读 · 0 评论 -
爬虫系列(二)--爬取原始html
爬虫系列(二)--爬取原始html上一篇文章中已经可以爬取一个页面的数据了,从本篇开始,处理上一篇中提到的具体任务。本篇文章要实现爬取某新闻网站的某些页面,并存储下来,已经有了这些页面的url。这是一个很简单的爬虫任务,准备几个url和上篇中最后的代码段,然后添加几行代码即可。这里实现一个只有5个url的爬虫,实际上可能有成千上万个,甚至更多。当url太多的时候可能要把url存到文件中,读...原创 2018-09-08 16:00:22 · 1872 阅读 · 0 评论 -
爬虫系列(三)--爬取指定区域数据
爬虫系列(三)--爬取指定区域数据本篇文章要实现给定若干url,抓取某新闻网站文章的标题和正文。这个和上面一篇相比复杂了不少,需要研究被抓页面的html结构。这里需要用到的工具是谷歌浏览器。1.页面结构先在谷歌浏览器中打开要抓取的url,右键单击标题,选择检查。如下图: 可以看到标题和正文在下面的标签下标题:<h1 class="main-title">...原创 2018-09-08 17:31:41 · 6398 阅读 · 0 评论 -
爬虫系列(四)--全站爬取
爬虫系列(四)--全站爬取全站爬取需要的数据基于一个这样的假设:某网站的页面上存在该网站其他页面的连接,通过这些连接跳转的新的页面进行数据的爬取。在开始这个之前,要先明白栈和队列。本篇中介绍的是单线程的实现方式,大规模的爬取需要多线程,分布式爬取。1.实现步骤(1)准备几个起始链接加入待队列Q中,例如Q=["http://www.xxx.com/aaa/","http://www.xx...原创 2018-09-17 14:49:39 · 4909 阅读 · 0 评论 -
爬虫系列(五)--爬取商城评论数据
爬虫系列(五)--爬取商城评论数据这篇标题是爬取评论数据,实际上是一种类型的数据爬取。比如网页的下拉加载数据,使用js动态加载的数据。这类数据有一些爬取起来会比较麻烦,可能要深入分析目标页面运行机理。迟迟没有写这个,原因是图片太多,步骤会多一点,有些麻烦。不过不用担心,这些步骤很简单,操作两次就熟悉起来了。也许你刚开始会觉得这一篇爬取数据的方式和之前很不一样,到最后你会惊奇的发现,这一篇内...原创 2018-09-21 13:03:49 · 5998 阅读 · 2 评论 -
爬虫系列(六)--爬取页面上的图像
爬虫系列(六)--爬取页面上的图像马上国庆节了,要是再不写,可能又要到了十一过后才能写了。图像的爬取和普通页面的爬取是一样的,只是不需要进行转码,是二进制数据,直接写入文件中就行了。要注意的地方就是文件扩展名,还有图片文件是否已经存在了。1.目标简介下面的内容要实现的是爬取取某个指定页面上的图片。要是想要爬取指定区域内的图片或者是全站图片的话,需要结合前面的几篇文章的内容,稍微组合一下...原创 2018-09-30 12:13:22 · 726 阅读 · 0 评论 -
爬虫系列(七)借助selenium爬取数据
总是每隔一段时间懒惰很久,懒惰中懊恼虚度光阴,又沉溺懒惰不能自拔,陷入这种怪圈中很久很久。这一篇本应该上年写的,因为懒惰迟迟没有动手。懒惰误人生……使用selenium爬数据的好处有很多。有些网页数据是通过js加载后才有的,并且有复杂的校验过程;有些网页需要登录后才能查看数据;有些网页需要点击后才能展示数据... 这些都可以通过selenium的webdriver来抓取数据,它就是一个可以用代...原创 2019-09-09 12:59:35 · 1259 阅读 · 2 评论