- 博客(6)
- 收藏
- 关注
原创 scrapy中spider、Middleware、Downloader Middleware、pipline等各组件之间的关系分析
先借一张图scrapy各组件关系图.jpg该图详细的的描述了各组件间数据处理经过的方法,非常全面,通过该图可以很好对scrapy各部分进行扩展处理。 ...
2019-01-22 16:00:04
171
原创 mapreduce 本地开发环境
本地环境配置1、解压缩hadoop.*.tar.gz2、解压缩hadoop.dll、winutils.exe等安装文件,并拷贝到hadopp解压缩文件夹的bin目录下3、配置环境变量HADOOP_HOME,并将%HADOOP_HOME%\bin 添加到path中4、重启IDE(eclipse)问题汇总winutils不存在image.pngoutput文...
2018-12-21 16:20:35
281
原创 数据库 范式
各范式关系图范式关系图.png在设计与操作维护数据库时,最关键的问题就是要确保数据能够正确地分布到数据库的表中。使用正确的数据结构,不仅有助于对数据库进行相应的存取操作,还可以极大地简化应用程序中的其他内容(查询、窗体、报表、代码等),按照“数据库规范化”对表进行设计,其目的就是减少数据库中的数据冗余,以增加数据的一致性。泛化时在识别数据库中的一个数据元素、关系以...
2018-12-10 16:23:22
112
原创 scrapyd 使用
远程访问设置查找配置文件sudo find / -name default_scrapyd.conf配置文件路径如下图:scrapyd配置文件路径.png编辑配置文件内容,由于默认bind_address = 127.0.0.1 现需要远程访问需要更改为bind_address = 0.0.0.0[scrapyd]eggs_dir = eggs...
2018-11-15 08:59:50
153
原创 hadoop集群搭建
官方文档hadoop添加hadoop用户useradd hadoop/etc/hadoop/hadoop-env.shJAVA_HOME=${JAVA_HOME}JAVA_HOME=/usr/local/java配置文件公共参数core-site.xml<?xml version="1.0" encoding="UTF-8"?>&l...
2018-09-28 09:20:53
94
原创 scrapy POST方式抓取走过的坑
背景今天老板让核查新上线的app中的中标数据展示情况,一条一条数据点开看实在是太慢了,于是想抓包获取app请求的api接口以及传入的参数,获取返回的数据内容,将数据存储到sqlite3中直接通过执行sql来统计数据质量。先打开fiddle4,设置好代理,设置如下:mr_酱mr_酱scrapy 项目初始化执行命令创建项目:scrapy start...
2018-06-23 10:53:33
433
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人