爬虫框架
文章平均质量分 70
她最爱橘了
这个作者很懒,什么都没留下…
展开
-
服务器上运行Selenium
有些时候,我们写点爬虫或者写点自动化脚本不能一直占据着某台电脑,那样太浪费资源了,所以将其部署到服务器上默默的在后台运行是一个不错的选择。普通的python爬虫部署太过简单,这里就总结一下怎么部署selenium吧。一:首先在服务器上安装chrome和其对应的chromedriver。这个非常重要,一定要下载和安装其一一对应的版本。安装chromesudo apt-get install...原创 2019-07-04 17:32:15 · 8158 阅读 · 1 评论 -
关于爬取网站html源码出现Šæ¬¡æµè§的解决办法
之前有个朋友问我他爬取的html源码里面全是这些Šæ¬¡æµè§文字,无法进行文字处理。其实这指定一下编码就能正确输出中文了response = request.get(url)第一种:response.encoding = ‘utf8’print(response.text)第二种print(response.text.encode(response.encoding).deco...原创 2019-07-13 15:23:37 · 998 阅读 · 0 评论 -
Scrapy安装和运行遇到的一些问题
1: 首次安装scrapy时出现error:Microsoft Visual C++ 14.0 is required解决方法:下载twisted对应的whl文件下载网址找到对应的版本下载即可,下载完成后使用pip install xxxx.whl2:scrapy运行爬虫时提示缺少pywin32解决方法:下载对应版本的pywin32下载网址3:安装pywin32提示python ...原创 2019-03-27 14:39:54 · 647 阅读 · 0 评论 -
利用selenium时,chrome和firfox使用代理i
ip是为“182.90.80.137:8123”相同格式的字符串火狐浏览器: ip_ip = ip.split(":")[0] ip_port = int(ip.split(":")[1]) print(ip_ip) print(ip_port) random_header = random.choice(HEADERS) we...转载 2018-09-14 15:45:00 · 865 阅读 · 0 评论 -
Gerapy分布式爬虫管理框架
作用: 从 Scrapy 的部署、启动到监控、日志查看,我们只需要鼠标键盘点几下就可以完成安装流程:1. 打开cmd命令行工具:pip install gerapy2. 安装完成后, 直接输入:gerapy(可以获取它的基本使用方法)3. 在任意路径下执行以下命令:gerapy init(博主路径指定的是桌面)执行完毕后, 本地便会生成一个名字为gerapy的文件夹, 进入该文件夹, 可以看到一个...原创 2018-03-29 15:39:35 · 325 阅读 · 0 评论 -
基于Scrapy_redis部署scrapy分布式爬虫
1. 使用命令行工具下载工具包 scrapy_redispip install scrapy_redis2. 使用pycharm打开项目, 找到settings文件, 配置scrapy项目使用的调度器以及过滤器3. 修改spider爬虫文件4. 如果连接的远程服务, 例如MYSQL,Redis等, 需要将远程服务连接开启, 保证在其他主机上能连接成功5. 配置远程连接的MySQL及redis地址分...原创 2018-03-26 19:46:48 · 219 阅读 · 0 评论 -
Scrapy框架之重写下载器中间件
先附一张图, 了解一下思路:红线是原本的路线, 紫色是修改后的路线.在文件中, 自定义一个中间件.class CustomMiddleware(object): process_request(request, spider)当每个request通过下载中间件时,该方法被调用。process_request() 必须返回其中之一: 返回 None 、返回一个Response 对象、返回一个 Req...原创 2018-03-21 22:18:51 · 2612 阅读 · 0 评论 -
Pyspider爬虫框架(以及与Scrapy爬虫框架的优缺点)
Pyspider: 一个国人编写强大的网络爬虫系统并带有强大的WebUI, 采用Python语言编写, 分布式架构, 支持多种数据库后端, 强大的WebUI支持脚本编辑器, 任务监视器, 项目管理器以及结果查看器. 主要功能需求:1> 抓取, 更新调度多站点的特定的页面2> 需要对页面进行结果化信息的提取3> 灵活可扩展, 稳定可监控Pyspider设计基础:1> 通过py...原创 2018-03-30 14:02:36 · 6087 阅读 · 0 评论 -
Scrapy框架将数据保存文json, .xls格式
一: 将数据写入json文件"""逻辑:import codecs, json, os1. 创建pipeline类, 继承objectclass JSONWriterPipeline(object):2. 重写初始化函数, 初始化文件句柄对象, 写入一个[左中括号def __init__(self): self.file =codecs.open('xxx.json', 'w+', encodi...原创 2018-03-19 19:16:38 · 660 阅读 · 0 评论 -
Scrapyd部署项目爬虫
1. 新建虚拟环境(方便管理), 在虚拟环境中安装scrapy项目需要使用到的包.mkvirualenv --python=C:\python27\scripts\python.exe scrapySpider 新建虚拟环境进入环境使用pip将所需包安装完成打开命令行工具执行 pip install scrapyd等待安装完成输入scrapyd启动scrapyd服务浏览器输入 127.0.0.1:...原创 2018-03-22 19:50:13 · 3147 阅读 · 0 评论 -
Scrapy框架的爬虫代码(封装,存储)和运作爬虫的逻辑分析和注意事项
Scrapy框架一.解析数据1)先大致规划一下需要几个函数,可以用pass来先保存语法的完整性2)函数1跳转函数2使用yield这里的yield与return相似,可以返回一个值,但是不会结束以后的代码,所以在scrapy框架中几乎使用yield1.先在 def parse(self, response)中写入(这个函数是框架自带的,这里的response没有content属性)yield scr...原创 2018-03-01 22:33:07 · 1092 阅读 · 0 评论 -
Scrapy框架
爬虫框架一般有以下三种:1. Scrapy2.PySpider3.Selenium(自动化测试的一个框架)这里主要介绍ScrapyScrapy的基本用法:1. 在cmd中输入pip install scrapy注意:1.如果安装过程当中提示time out使用以下的命令来安装 pip install -i https://pypi.douban.com/simple scrapy注释: sc...原创 2018-03-01 21:41:09 · 863 阅读 · 0 评论 -
Scrapy框架的图片(文件)下载功能一些配置操作
Scrapy图片(文件)下载这里介绍的是Scrapy框架自带的图片(文件)下载功能一: 初步了解在Scrapy框架的源码中下载图片的文件 --->--->在这个.py文件中代码第69行是: 图片根据哪个属性下载代码第97行是: 图片存放的路径这里只是简单的了解一些scrapy图片下载的一些操作(其它源码自行百度)************************重新/自定义*******...原创 2018-03-14 20:25:42 · 1181 阅读 · 0 评论 -
Scrapy框架架构概览
Scrapy框架链接点击打开链接这里简要的介绍一下:一: 组件Engine引擎负责控制数据流在系统中所有组件中流动, 并在相应动作发生时触发事件调度器(Scheduler)调度器从引擎接受request并将他们入队, 以便之后引擎请求他们时提供给引擎下载器(Downloader)下载器负责获取页面数据并提供给引擎, 而后提供给spiderSpidersSpider是Scrapy用户编写用于分析re...原创 2018-03-14 19:58:05 · 345 阅读 · 0 评论