Python分布式爬虫框架Scrapy 打造搜索引擎
关于python分布式爬虫框架scrapy的学习以及对搜索引擎的相关知识的总结
29DCH
In me the tiger sniffs the rose.
展开
-
pycharm如何快速创建scrapy项目
1.安装scrapy pip install scrapy 或者去Project Interpreter里面添加scrapy库 2.在指定文件夹或者pycharm里面的终端中执行命令 scrapy startproject myproject 3.利用爬虫模板设置爬虫文件 scrapy genspider [options] name domain scrapy genspider -l 查看当前...原创 2018-10-30 09:41:54 · 862 阅读 · 0 评论 -
网站的树结构以及爬虫的深度优先和广度优先
网站的URL设计是非常重要的,一般都是分层的,形成比较清晰的树结构。 环路: 了解了网站的树形结构和环路情况后可以让我们爬取有价值的信息的时候更加有策略和针对性。 在环路中最重要的是URL去重,否则就会陷入死循环中,去重策略见我的上一篇博客 https://blog.csdn.net/CowBoySoBusy/article/details/83477266 深度优先: 和DFS一样,就是深度...原创 2018-10-29 11:14:40 · 843 阅读 · 0 评论 -
爬虫去重策略
接触过爬虫的同学都知道,如果爬虫爬取的网页URL地址不去重的话,会陷入死循环中。这是非常不好的现象,所以下面就来讲一下爬虫的去重策略。 1. 将访问过的URL保存到数据库中,获取下一个URL之后从数据库中读取保存过的URL看是否重复。 优点:简单易行。 缺点:由于数据库读取占不少的内存和资源,速率不是很快,效率低下且数据量一大就很消耗时间,所以这种方式不推荐,特别是数据量比较庞大的时候。 2. 将...原创 2018-10-28 21:51:13 · 773 阅读 · 0 评论 -
python爬虫入门
每个网站都应该提供API,以结构化的格式共享数据。但现实情况下,虽然有提供,但是通常会限制可以抓取的数据,以及访问这些数据的频率。对于网站开发者而言,维护前端界面比维护后端API接口优先级更高。所以应该学习网络爬虫的相关知识。 前期准备: 1.检查robots.txt文件,了解限制,减少爬虫被封禁的可能性。 2.检查网站地图(Sitemap文件),帮助定位网站最新的内容。 3.估算...原创 2018-05-30 21:47:16 · 410 阅读 · 0 评论 -
python爬虫scrapy框架
安装:pip install Scrapy startproject:创建一个新项目 genspider:根据模板生成一个新爬虫 crawl:执行爬虫 shell:启动交互式抓取控制台 进入项目目录 scrapy startproject CrawlerTest(project name) cd CrawlerTest 会生成如下文件: items.py:定义了待抓取域的模型 ...原创 2018-05-31 21:41:09 · 333 阅读 · 0 评论