周旭阳-CSDN博客

原创 scrapy中spider、Middleware、Downloader Middleware、pipline等各组件之间的关系分析

先借一张图scrapy各组件关系图.jpg该图详细的的描述了各组件间数据处理经过的方法，非常全面，通过该图可以很好对scrapy各部分进行扩展处理。 ...

2019-01-22 16:00:04 171

原创 mapreduce 本地开发环境

本地环境配置1、解压缩hadoop.*.tar.gz2、解压缩hadoop.dll、winutils.exe等安装文件，并拷贝到hadopp解压缩文件夹的bin目录下3、配置环境变量HADOOP_HOME，并将%HADOOP_HOME%\bin 添加到path中4、重启IDE（eclipse）问题汇总winutils不存在image.pngoutput文...

2018-12-21 16:20:35 281

原创数据库范式

各范式关系图范式关系图.png在设计与操作维护数据库时，最关键的问题就是要确保数据能够正确地分布到数据库的表中。使用正确的数据结构，不仅有助于对数据库进行相应的存取操作，还可以极大地简化应用程序中的其他内容(查询、窗体、报表、代码等)，按照“数据库规范化”对表进行设计，其目的就是减少数据库中的数据冗余，以增加数据的一致性。泛化时在识别数据库中的一个数据元素、关系以...

2018-12-10 16:23:22 112

原创 scrapyd 使用

远程访问设置查找配置文件sudo find / -name default_scrapyd.conf配置文件路径如下图：scrapyd配置文件路径.png编辑配置文件内容，由于默认bind_address = 127.0.0.1 现需要远程访问需要更改为bind_address = 0.0.0.0[scrapyd]eggs_dir = eggs...

2018-11-15 08:59:50 153

原创 hadoop集群搭建

官方文档hadoop添加hadoop用户useradd hadoop/etc/hadoop/hadoop-env.shJAVA_HOME=${JAVA_HOME}JAVA_HOME=/usr/local/java配置文件公共参数core-site.xml<?xml version="1.0" encoding="UTF-8"?>&l...

2018-09-28 09:20:53 94

原创 scrapy POST方式抓取走过的坑

背景今天老板让核查新上线的app中的中标数据展示情况，一条一条数据点开看实在是太慢了，于是想抓包获取app请求的api接口以及传入的参数，获取返回的数据内容，将数据存储到sqlite3中直接通过执行sql来统计数据质量。先打开fiddle4,设置好代理，设置如下：mr_酱mr_酱scrapy 项目初始化执行命令创建项目：scrapy start...

2018-06-23 10:53:33 433

weixin_42406479的博客

原创 scrapy中spider、Middleware、Downloader Middleware、pipline等各组件之间的关系分析

原创 mapreduce 本地开发环境

原创数据库范式

原创 scrapyd 使用

原创 hadoop集群搭建

原创 scrapy POST方式抓取走过的坑

空空如也

空空如也

原创 scrapy中spider、Middleware、Downloader Middleware、pipline等各组件之间的关系分析

原创 mapreduce 本地开发环境

原创 数据库 范式

原创 scrapyd 使用

原创 hadoop集群搭建

原创 scrapy POST方式抓取走过的坑

空空如也

空空如也

原创数据库范式