大数据入门
liuxian_2004
这个作者很懒,什么都没留下…
展开
-
虚拟机安装spark2.2+hadoop2.7.3
安装VisualBox和操作系统官网下载VisualBox安装文件.并安装。ubuntu官网下载最新版本得ubuntu安装文件。visualBox新建64位ubuntu,并启动虚拟机。跟着提示选择ubuntu安装文件,就可以很顺利的装好系统了。 一般个人电脑内存在8g以下,所以如果装3台虚拟机,每台最多分1.5g内存了,多了机器也跑不动,所以按照网上的很多文档,装好出现了nodemanag原创 2017-09-03 15:03:14 · 555 阅读 · 0 评论 -
python+scrapy 爬取成都链家二手房和成交信息
爬虫设计方案爬取目标成都链家的二手房和成交数据。由于web版看不到最新的成交金额数据,因此需要用手机版的数据。成交数据应该去重,可以做成每天增量爬取。需要做成每天爬取一次,定时执行参考文章技术方案使用Scrapy框架,实现spider部分和pipeline部分。拦截手机版网络请求,获取Cookie信息,模拟手机请求拿到未隐藏的成交数据。GET /cd/chengjiao/ HTTP/原创 2018-01-01 11:41:02 · 3428 阅读 · 1 评论