爬虫
__盛夏光年__
这个作者很懒,什么都没留下…
展开
-
【爬虫】Scrapy爬取腾讯社招信息
目标任务:爬取腾讯社招信息,需要爬取的内容为:职位名称,职位的详情链接,职位类别,招聘人数,工作地点,发布时间。 一、预备基础 1、Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛,可用于数据挖掘、监测和自动化测试。 Scrapy 使用了 Twisted 异步网络库来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,...原创 2019-04-12 23:31:00 · 1067 阅读 · 1 评论 -
【爬虫笔记】爬虫基础
爬虫基础 正则表达式 深度优先和广度优先遍历算法 url去重的常见策略 爬取真实数据 三个网站:技术社区、问答网站、招聘网站 技术:xpath + css 获取 data 模拟登陆 scrapy反爬虫技术 图片验证码 ip访问频率限制 user-agent随机切换 scrapy进阶 scrapy的原理 基于scrapy的中间件开发 scrapy redis分布式爬虫 理解scra...原创 2019-05-05 22:34:36 · 195 阅读 · 0 评论 -
【爬虫笔记】Scrapy爬虫技术文章网站
Scrapy相关基本介绍参考这里 一般的爬虫步骤: 新建项目 (scrapy startproject xxx):新建一个新的爬虫项目 明确目标(编写 items.py):定义提取的结构化数据 制作爬虫(spiders/xxspider.py):制作爬虫开始爬取网页,提取出结构化数据 存储内容(pipelines.py):设计管道存储爬取内容 目标任务:爬取伯乐在线所有技术文档,需要爬取的内容...原创 2019-05-12 22:48:45 · 239 阅读 · 0 评论