自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 scrapy中spider、Middleware、Downloader Middleware、pipline等各组件之间的关系分析

先借一张图scrapy各组件关系图.jpg该图详细的的描述了各组件间数据处理经过的方法,非常全面,通过该图可以很好对scrapy各部分进行扩展处理。 ...

2019-01-22 16:00:04 171

原创 mapreduce 本地开发环境

本地环境配置1、解压缩hadoop.*.tar.gz2、解压缩hadoop.dll、winutils.exe等安装文件,并拷贝到hadopp解压缩文件夹的bin目录下3、配置环境变量HADOOP_HOME,并将%HADOOP_HOME%\bin 添加到path中4、重启IDE(eclipse)问题汇总winutils不存在image.pngoutput文...

2018-12-21 16:20:35 281

原创 数据库 范式

各范式关系图范式关系图.png在设计与操作维护数据库时,最关键的问题就是要确保数据能够正确地分布到数据库的表中。使用正确的数据结构,不仅有助于对数据库进行相应的存取操作,还可以极大地简化应用程序中的其他内容(查询、窗体、报表、代码等),按照“数据库规范化”对表进行设计,其目的就是减少数据库中的数据冗余,以增加数据的一致性。泛化时在识别数据库中的一个数据元素、关系以...

2018-12-10 16:23:22 112

原创 scrapyd 使用

远程访问设置查找配置文件sudo find / -name default_scrapyd.conf配置文件路径如下图:scrapyd配置文件路径.png编辑配置文件内容,由于默认bind_address = 127.0.0.1 现需要远程访问需要更改为bind_address = 0.0.0.0[scrapyd]eggs_dir = eggs...

2018-11-15 08:59:50 153

原创 hadoop集群搭建

官方文档hadoop添加hadoop用户useradd hadoop/etc/hadoop/hadoop-env.shJAVA_HOME=${JAVA_HOME}JAVA_HOME=/usr/local/java配置文件公共参数core-site.xml<?xml version="1.0" encoding="UTF-8"?>&l...

2018-09-28 09:20:53 94

原创 scrapy POST方式抓取走过的坑

背景今天老板让核查新上线的app中的中标数据展示情况,一条一条数据点开看实在是太慢了,于是想抓包获取app请求的api接口以及传入的参数,获取返回的数据内容,将数据存储到sqlite3中直接通过执行sql来统计数据质量。先打开fiddle4,设置好代理,设置如下:mr_酱mr_酱scrapy 项目初始化执行命令创建项目:scrapy start...

2018-06-23 10:53:33 433

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除