爬虫
奈斯菟咪踢呦
联系电话:15718879112
展开
-
反爬策略
一、爬与反爬 爬虫目的: 1.获取数据。填充公司的数据库,可以用来做数据测试。也可以直接登录 2.通过爬虫爬取大量的数据。用来制作搜索引擎 3.通过爬虫爬取数据,做数据采集和数据分析的工作 4.通过爬虫爬取数据,用于做训练模型,做人工智能机器人训练 反爬虫目的: 1.针对一些初级的爬虫,简单粗暴,不会考虑服务器压力,会导致服务器瘫痪 2.针对失控的爬虫,爬虫的数量比较多,忘记关闭爬...原创 2018-07-30 11:08:36 · 599 阅读 · 0 评论 -
爬虫之----WebMagic爬虫框架及简单实例
之前利用webmagic做过爬虫,如今又遇到了 ,想做一个专题 。下面从框架基础开始!会不定时进行更新! 官方中文文档:http://webmagic.io/docs/zh/ 一、WebMagic总体架构 1、各个组件介绍 WebMagic的四个组件 1.Downloader Downloader负责从互联网上下载页面,以便后续处理。WebMagic默认使用了Apache Ht...原创 2018-07-31 11:27:20 · 1324 阅读 · 0 评论