spider
qq_571516248
这个作者很懒,什么都没留下…
展开
-
selenium
selenium介绍:selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种常见的浏览器from selenium import webdriverbrowser=webdriver....转载 2019-04-16 16:01:43 · 145 阅读 · 0 评论 -
爬虫基础
爬虫简介什么是爬虫 爬虫是一种应用程序,用于从互联网中获取有价值的数据,从本质上来看,属于client客户端程序。互联网简介 互联网是由各种计算机设备,通过连接介质相互连接而组成的,其目的就是为了能在不同计算机之间传输数据,并且在互联网上有大量的数据是免费的。如果没有互联网,你只能拿着u盘过去拷贝。。爬虫的原理 通常我们所谓的上网,其实本质就是用计算机通过网络去访问另...转载 2019-04-16 16:04:22 · 143 阅读 · 0 评论 -
beautiful soup
Beautiful Soup 简介Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beaut...转载 2019-04-16 16:05:33 · 115 阅读 · 0 评论 -
scrapy
简介Scrapy一个开源和协作的框架,其最初是为了页面抓取所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy 是基于twisted框架开发而来,twiste...转载 2019-05-09 12:44:19 · 205 阅读 · 0 评论 -
celery
Celery1.什么是CeleryCelery是一个简单、灵活且可靠的,处理大量消息的分布式系统专注于实时处理的异步任务队列同时也支持任务调度Celery架构Celery的架构由三部分组成,消息中间件(message broker),任务执行单元(worker)和任务执行结果存储(task result store)组成。消息中间件Celery本身不提供消息服...转载 2019-05-09 12:48:21 · 581 阅读 · 0 评论 -
Haystack
Haystack1.什么是HaystackHaystack是django的开源全文搜索框架(全文检索不同于特定字段的模糊查询,使用全文检索的效率更高 ),该框架支持Solr,Elasticsearch,Whoosh,**Xapian搜索引擎它是一个可插拔的后端(很像Django的数据库层),所以几乎你所有写的代码都可以在不同搜索引擎之间便捷切换 全文检索不同于特定字段的模糊查询,使...转载 2019-05-09 12:49:25 · 3223 阅读 · 0 评论