爬虫学习
菠萝啤水桶腰
学技术浪的飞起来
展开
-
爬虫读书笔记01
第一章:什么是爬虫–随便看看就好 网络爬虫的分类: 通用爬虫:有关的信息全部可以搜索出来的的爬虫 聚焦爬虫:有关某一类信息的获取,去掉无关信息的爬虫。 网络爬虫的别名: 网络蜘蛛,网络蚂蚁,网络机器人 它们遵循的算法叫作爬虫算法。 网络爬虫最长用的场景: 搜索引擎:百度搜索–百度爬虫–百度蜘蛛,360爬虫–360spider,搜狗爬虫叫sougouspider,必应爬虫...原创 2018-07-19 09:57:24 · 1356 阅读 · 0 评论 -
爬虫读书笔记02
第二章《网路爬虫技能总览》–随便看看就好 爬虫技能总览 搜索引擎 爬取图片 消除广告 爬取用户网站公开信息—营销 爬取新闻集中阅读 搜索引擎 用户爬虫 用户爬虫:是爬取用户信心的一种专用爬虫,用来处理用户的潜在信息。...原创 2018-07-19 09:58:16 · 180 阅读 · 0 评论 -
爬虫读书笔记03
第三章:《网络爬虫原理和实现技术》 爬虫实现原理详解 通用网络爬虫 聚焦网络爬虫: 爬虫策略: 深度优先爬虫策略: 广度优先爬虫策略: 大站式优先爬虫策略:(网页数量比较多的) 反链式爬虫策略:(网站被引用的次数越多越大,越优先) 网页更新策略: 为什么会有网站跟新策略? 因为有的网站会不断跟新,我们要定时爬取网站才可以保证数据的即时性,所以我们要不断的爬取...原创 2018-07-19 09:59:27 · 249 阅读 · 0 评论