课程目标
了解数据可视化的设计流程和原则
使用增量式爬虫获取海量租房数据
数据库的设计与优化
使用 ECharts 进行数据可视化呈现
人工智能算法实现推荐和预测房屋涨势
学习技能
本次案例是租房平台通过采集个各大租房平台的房源数据,然后进行整合、分析,最后做数据可视化的展示。在这个案例将使用到一下技术点:
一、项目整体结构
1.1 了解项目
我们身处数据为王的时代,在我们身处的世界中,信息量与日俱增,每天有大量的数据在我们身边被创造、复制和传输。据统计早在 2011 年全年世界创造和复制的数据总量已达到1.8ZB(1ZB=109TB),而且每年呈翻倍增长的趋势。
如此海量的数据中隐藏着巨大的数据价值,由此我们需要使用数据分析、数据挖掘、数据可视化的手段,有效地提取隐藏在数据中有价值的信息。
而本次案例(租房平台),通过采集“房天下”、“安居客”、“58 同城”等租房平台的房源数据,然后对数据进行整合、分析,最后在前端展示出数据的有效信息。我们一起完成本次项目,步步为营,递进式快速搭建项目雏形,完成需求功能模块。
1.2 项目结构
通过刚才介绍的项目的整体情况,可以将项目分为两部分:
1.2.1 数据采集
大数据时代的特点之一是数据开始变得廉价,即收集数据的途径多种多样,成本相对低廉。通常数据采集的手段指的是实验测量、计算机仿真、网络数据传输和免费数据资源(示例 1、示例 2)。这次我们将它狭义的定义为使用爬虫技术,获取需要的数据,在将数据进行预处理之后,进行存储的过程。
1.2.2 数据可视化
数据可视化,首要任务是准确的展示和传达数据所包含的信息。在此前提下,针对特定的用户对象,设计者可以根据用户的预期和需求,提供有效的辅助手段以方便用户理解数据,从而完成有效的可视化。
二、数据采集
2.1 数据采集的流程
数据采集,相比大家在上一小节已经了解了。
数据采集分为三部分:
数据获取
数据预处理
数据存储
而这三部分内容,使用 Scrapy 框架就可以帮助我们全部完成。
2.2 回顾 Scrapy 框架