大数据毕业设计Hadoop+Spark+Hive租房推荐系统 贝壳租房数据分析 租房爬虫 租房可视化 租房大数据 大数据毕设 机器学习 计算机毕业设计 机器学习 深度学习 人工智能

论文(设计)题目:基于大数据出租房交易市场数据分析及可视化

问题的提出:

自从网络爬虫研究出现以来,大部分传统网络爬虫都是首先设定一个或者若干个入口 URL,在抓取网页的过程中,按照抓取的策略,从当前页面上提取出新的 URL放入队列,以便获取 URL 对应的网页内容,将网页内容保存到本地,然后,再提取有效地址作为下一次的入口 URL,直到爬行完毕。但是,传统的网络爬虫无论采用哪种策略,随着网页数量的剧增,大量的无关网页会被下载。鉴于以上的缺点,本文的网络爬虫采用的是基于 API 的数据抓取,与传统的网络爬虫相比,API 接口为网络爬虫程序高效获取天气数据提供了保障。 搜索引擎是一个实用性很强的研究领域,而网络爬虫又是作为搜索引擎的重要的组成部分,因此,网络爬虫是值得我们去了解和研究,其重要性非比寻常!而针对与日常生活息息相关的出租房的房源数据特定网络爬虫,更值得我们去深入了解和研究。

课题研究的目的和意义:

搜索引擎是运用特定的计算机应用程序,能够自动的从网络上进行数据信息的搜集,并采用了一定的策略和手段,对搜集到的数据进行适当的整理,然后,以供用户进行信息检索的系统。它如果要进行追溯的话,搜索引擎的发展历史要比万维网还要悠久的多,针对搜索引擎进行数据的爬取,将爬取的数据进行大数据手段以及可视化方式呈现,可实现数据的价值。

网络爬虫程序采用有效的算法及策略,对58网API接口内的数据,进行分析、识别、抓取等操作。最后,网络爬虫程序通过结构化网络数据抽取的方式,将房源数据保存到数据库中,以便日后用于数据挖掘,以及对某个或某些城市,房源信息进行研究。

课题研究的主要内容和解决的方法:

本系统所采用的数据来源于58同城网(https://hrb.58.com/chuzu),首先在 HTML 文件中,当某个超链接被选择后,被链接的那个 HTML 文件就会执行深度优先搜索,在搜索其他的超链接的结果以前,必须完整地进行搜索单独的一条链接。 深度优先搜索将会沿着 HTML 文件上的超链接不断的进行,进行到不能再深入为止。 返回到某个 HTML 文件,再继续选择这个 HTML 文件中的其他的超链接,不断循环。当没有其他的超链接可供选择时,说明到了叶子结点,无法继续再进行下去了,即该搜索操作已经结束,其次针对数据清洗以及数据存储。

本课题基于webmagic爬虫分析情况,做如下功能的大数据分析:

各区域租房平均单价数据分析
房屋面积与租金数据分析
房屋租金支付方式数据分析
房屋地区数据分析
房屋类型数据分析
租房面基房源数据分析
基于Spark-ML或者协同过滤算法进行房屋数据推荐(用户端)
针对以上需求,解决方案设计如下:

1.数据生产:使用Spark对数据进行清洗,采集数据包含如下内容:

分析数据要求:

房屋标题、房屋租金、租金支付方式、租赁方式、房屋类型、房屋大小、房屋装修、房屋朝向、房屋楼层、房屋高度、所在小区、所属区域、详细地址、房屋图片、房屋最近发布时间、房屋所属、房屋配置、房屋亮点、房屋描述、详情页地址等信息。

数据加工处理
使用大数据技术对原始数据进行加工处理,得到用于分析和可视化展示的目标数据。

数据加工处理包括:

数据清洗处理
分两次过滤:

对“脏”数据、不符合要求数据、空瘪数据进行集中过滤;
过滤选择重复数据相关内容;只保留数据内容丰富的数据集。
在json数据中,删除重复值,指定数据类型,对‘house_type’进行分列。在MySQL中创建数据库并导入数据,对于房屋类型为空的数据进行删除或者格式化。
数据格式化处理
   该过程包括:

统一数据结构编码
统一数据类型
统一数字计量单位
格式化时间,北京时间(YYYY-MM-DD 24HH:MI:SS)
为每条数据计算唯一标识
数据关联补齐处理
   该过程包括:

为数据增加属性信息:更新时间、ID等信息的补齐
为数据增加指代信息:数据为空或者异常可指代为暂无信息等
数据聚类、归并处理
   该过程包括:

针对数据存在重复都情况、或相似数据进行集中归并处理
针对数据是零散分布,为满足不同分析功能,将相同维度数据进行聚类
数据水平、垂直分解
为满足不同的分析功能,webmagic爬虫采集的数据按照不同进行拆解,如时间区间,特定数据维度的拆解

数据多源输出
能够向不同的数据存储服务输出数据,包括:

日志平台Log4j本地日志
业务数据库,MySQL
本地文件系统,CSV表格
实时查看webmagic爬虫相关信息执行情况
3.数据仓库

使用MySQL存储各功能数据集

对原始数据、各功能数据集管理的功能

支持系统查看、下载、删除服务器数据、各数据集

4.展示内容包含不限于以下

对原始数据展示,包含房屋标题、房屋租金、租金支付方式、租赁方式、房屋类型、房屋大小、房屋装修、房屋朝向、房屋楼层、房屋高度、所在小区、所属区域、详细地址、房屋图片、房屋最近发布时间、房屋所属、房屋配置、房屋亮点、房屋描述、详情页地址等内容。
b.各区域租房平均单价数据分析

c.房屋面积与租金数据分析

d.房屋租金支付方式数据分析

e.房屋地区数据分析

f.房屋类型数据分析

g.租房面基房源数据分析

h.基于Spark-ML或者协同过滤算法进行房屋数据推荐(用户端)

7. 房源数据分析和结论

基于以上分析结果,分析房源的描述内容,根据数据做出各模块统计图
基于以上分析结果,向用户推荐优质房源
基于以上分析结果,分析做出大屏统计图
5. 可视化呈现

通过大数据的手段对原始数据进行清洗、聚类分析、将分析后的结果采用可视化的图表进行展示。可视化可采用Vue框架进行Web界面搭建,后台采用SpringBoot+SparkSQL做数据分析,实时展示出分析后的结果,将结果通过Http协议发送给Web端。交互形式采用Post/Get请求,服务端采用Flask框架对项目搭建。对于敏感数据采用PostgreSQL/MySQL/Oracle等数据库实时存储,采用云服务器,如阿里云服务器对项目继承部署,线上交互,实时动态分析,通过可视化的图表直观的展示出分析结果。达到”一图胜千言”的目的。其分析结果展示样例如下:

(1)郑州地区各户型房屋数量;

(2)郑州市各区房源情况;

房屋面积与租金数据分析
6. 系统性能要求

具有实时数据展示和动态更新的能力、查询无异常的情况喜爱等待的时间不会超过3秒、可视化的页面配置,和响应时间不会超过2秒,同时我们业务展示时用户页面,基本上等待延迟不会超过3秒,可通过线上服务器部署,如线上服务器需要对程序进行监控,如Supervisor对系统进程监控,Java开发可采用jar包部署项目,通过Nginx做负载均衡,可保证7*24小时连续稳定工作,每月的故障率不超过3次。

7. 接口规范

系统各个模块功能实现之后需要对其进行功能测试,主要的方法是通过数据增、删、改、查的方式进行测试。另外为输出数据进行主要测试,我们在代码开发过程中,添加了API标准接口输出规范,当数据正确定且合理的情况下,输出“success”,当数据接口异常的时候输出“fail”。

附:该数据集进行网络爬虫,各字段含义如下:

house_title:房屋标题

house_pay:房屋租金

house_pay_way:租金支付方式

rent_way:租赁方式

house_type:房屋类型

house_area:房屋大小

house_decora:房屋装修

toward:房屋朝向

floor:房屋楼层

floor_height:房屋高度

house_estate:所在小区

area:所属区域

address:详细地址

pic:房屋图片

time:房屋最近发布时间

agent_name:房屋所属

house_disposal:房屋配置

house_spot:房屋亮点

house_desc:房屋描述

核心算法代码如下:

  • 8
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
大数据基于用户画像电影推荐系统是一个涉及Python、SparkHadoop等技术的复杂项目。在这个毕业源码案例设计中,源代码包含了多个部分的实现。 首先,Python作为主要的编程语言之一,负责数据的处理和分析。通过Python的数据处理库,我们可以对用户的个人画像数据进行清洗和整合,包括用户的年龄、性别、观影习惯等信息。同时,Python也可以用来编写推荐算法和模型评估的代码。 其次,Spark作为大数据处理和分析的引擎,在这个项目中起着重要的作用。我们可以利用Spark来处理海量的用户观影行为数据,进行分布式计算和数据处理,快速生成用户画像和推荐模型。Spark机器学习库也可以用来构建推荐系统模型,根据用户的画像特征为其推荐电影。 最后,Hadoop作为大数据存储和管理的平台,负责存储用户的个人画像数据、电影信息数据以及用户观影行为数据。通过Hadoop分布式文件系统(HDFS)和MapReduce计算框架,可以实现数据的高效存储和处理。 在这个毕业源码案例设计中,源代码会包括数据预处理的代码、推荐算法的实现、模型评估的代码,以及与HadoopSpark的交互代码等。这些源代码的编写将涉及到Python的数据处理和建模技术,Spark的分布式计算和机器学习技术,以及Hadoop的数据存储和管理技术。通过这些源代码的设计和实现,可以构建一个完整的大数据用户画像电影推荐系统

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值