python
文章平均质量分 92
名明鸣冥
这个作者很懒,什么都没留下…
展开
-
mysql的Too many connections错误重现实验
mysql有不少的变量,状态,和查询信息,简单查看下这些语句的场景,这里尝试用外部进程去访问mysql。通过查看mysql的各种数据,进一步了解mysql.原创 2017-02-19 18:17:08 · 802 阅读 · 0 评论 -
scrapy获取数据的一些问题与解决
前言我们采用scrapy 爬取了一些游戏数据,这里对遇到的一些技术问题 的解决情况项目情况爬虫的逻辑是比较简单的,有一个进程从 任务队列中 拿到 相应的任务(一般是url),去请求,拿到html/json/…后 进行解析,解析完后自己选择做什么,比如:1,把解析后的数据存起来,2,解析后发现有想用的url,重新把这些个url当作一个任务扔到 任务队列中.我们的爬虫任务有挺多的,如 游戏的i...原创 2019-09-06 16:32:34 · 1284 阅读 · 0 评论 -
scrapy源码分析_初始化及settings
Crawler的初始化及动作下面是按启动顺序的逻辑,0,关于execute动作最先是把settings给加进来.site-packages\scrapy\cmdline.py中的 settings = get_project_settings() 这里首先会取site-packages\scrapy\settings\default_settings.py中的配置,然后取项目的setti...原创 2018-12-30 11:31:18 · 1075 阅读 · 0 评论 -
爬虫架构简述
项目情况最近做了一个爬虫系统,使用scrapy 作为核心,用kafka作队列,然后加上 java的消费者,还有其它周边服务,形成一个架构,这里进行一个简单的整理基础结构考虑到数据的扩展性和互联网的不确认性,考虑使用 nosql来存储大部分业务数据,同时为了更好的处理文字搜索, 于是决定使用elasticsearch + mysql的方式来处理.然后,我们考虑了底层服务,这涉及到数据获取,解...原创 2018-10-26 11:28:30 · 2692 阅读 · 0 评论 -
scrapy集成scrapy-redis
背景情况爬虫由于需要网络请求,一般生产数据都比较慢,如果增加部分浏览器的处理,会更慢, 所以需要增加分布式的处理方案, 比较常见的,是把队列扔到redis中,比较常用的是 scrapy-redis 说明,这里不讲怎么去搭建一个spider,初始内容,请查看 https://blog.csdn.net/mingover/article/details/80717974怎么...原创 2018-08-08 19:22:44 · 816 阅读 · 0 评论 -
scrapy管理多个spider,共用settings问题
背景说明这段时间需要用到scrapy来获取一些数据,其中涉及到多个任务,之间对scrapy不太熟悉,于是一个任务一个scrapy,感觉对复用方面很不友好,于是我们在想,怎么在一个scrapy project中搞多个spider, 这样对各方面的复用会好很多.系统使用了redis,和kafka,代理逻辑, 还有散落在很多代码里的log 一般这种抽象,我会采用策略模式来做,同时兼顾单例,根据fl...原创 2018-07-20 11:29:05 · 6373 阅读 · 1 评论 -
scrapy_demo获取网站信息
前段时间项目使用了scrapy,这里做个简单的demo,使用scrapy抓取下安居客的内容, 关于怎么搭建scrapy的工程,请查看https://blog.csdn.net/mingover/article/details/80717974全部源代码:https://github.com/huawumingguo/scrapy_demo分析安居客页面是否要登陆?我们...原创 2018-07-07 14:33:43 · 646 阅读 · 0 评论 -
用scrapyd部署scrapy项目
介绍与安装 scrapydscrapyd是一个服务器,类似于nginx,tomcat,会暴露web接口 , 我们的scrapy爬虫类似作为一个webapp部署进来,然后通过webapi进行开启关闭等操作安装:pip install scrapyd我们部署的前提是自己已经有一个scrapy工程了,具体可参考:https://blog.csdn.net/mingover/articl...原创 2018-07-10 22:46:51 · 2569 阅读 · 0 评论 -
使用scrapy进行页面抓取
安装python3略 关于虚拟环境的搭建,安装 virtualenv pip install virtualenv virtualenv 不管是在py2还是py3都可以安装新建到当前目录的虚拟环境virtualenv scrapytest 可以进入目录 里面有目录 ,怎么进入和退出这个虚拟环境?到Scripts 目录下 activate.bat...原创 2018-06-17 12:49:32 · 1745 阅读 · 0 评论 -
flask的安装与使用
D:\work\netease\projects\flask_first说明最近的项目需要用到flask,貌似3年前用过,不过很久没搞了以前java web比较熟。这里做个简单的入门记录官网:http://docs.jinkan.org/docs/flask/下载与安装pip install flask建议用virtualenv一个例子from flask import Fl...原创 2019-09-14 17:20:31 · 381 阅读 · 0 评论