论文(设计)题目:基于大数据的收入数据分析系统 |
问题的提出: 采用大数据集群进行搭建环境,通过分布式进行部署项目,设计管理端和用户端,管理端可对调研的国籍、种族、职业、工作类型、教育程度、婚姻状态、收入信息进行数据的清洗处理及管理工作,用户端针对清洗后的数据进行分析,包含对国籍数据统计、各国籍性别分布、种族分布统计、各种族工作时间统计、各职业信息分布、工作时间与职业分布统计、工作类型分布统计、教育程度统计、教育程度与工作时长分析、各职业收入信息分析、收入数据统计、婚姻与收入分析、种族与收入分析及职业与收入分析等功能,从样本数据分类情况来看,各种分类将原始样本数据进行初步分类,平衡样本数据使得少数类的数据样本从测试教育收益与婚姻幸福关系,集成进一步全面优化分类效果。 |
课题研究的目的和意义: 在社区一级,鉴于上海流动人口众多、人户分离严重,行政登记的常住人口资料往往不能反应实际情况,但门牌地址系统相对完整,分三步获取80后调查对象样本:随机选取地址,对选中地址排查常住人口,随机抽取80后调查对象。 根据以往调查经验和调查进度要求,本次调查的目标有效样本量为2000人。考虑到调查的执行过程中,访问失败、拒访等因素,为达到目标样本量,本调查采取扩大基础样本量的方法。 根据第六次人口普查数据,上海约三分之一的家庭有80后,再根据以往经验,复旦大学调查中心上海入户访问的成功率大体能实现60-70%。因此决定在每个社区随机抽取130个地址,基础样本量约为3470个地址/人(80*130*1/3)。为减少地址空号、空关房和非居民房等对抽样的影响,每个社区另留20个备用地址。根据70%的访问成功率估计,预期有效样本为2400人。即使只达到60%的访问成功率,预期有效样本仍然可以保证在2000人以上。以特定人群为主体的跟踪性调查。之所以选择跟踪调查一是回答重大社会科学问题因果机制研究的需要二是跟踪中国社会长期变化的需要三是这种研究设计对社会科学的研究分析方法有较高要求,有助于使用与发展新的分析方法四是能体现复旦文理医交叉的优势和特色五是能更好地区别于北大和人大等已经开展的大规模调查。 |
课题研究的主要内容和解决的方法: 本系统所采用的数据来源于竞赛分析网站,分别包含了以下模块及数据。 国籍管理包含了数据的国籍,管理员可再后台对数据进行操作,用户只有访问权限,管理员可对国籍信息进行增删改查等操作,包含了国籍信息、添加人、添加时间等内容。 种族信息管理包含了数据的种族,管理员可再后台对数据进行操作,用户只有访问权限,管理员可对种族信息进行增删改查等操作,包含了种族信息、添加人、添加时间等内容。 职业类型管理包含了数据的职业类型,管理员可再后台对数据进行操作,用户只有访问权限,管理员可对职业类型信息进行增删改查等操作,包含了职业类型信息、添加人、添加时间等内容。 工作类型管理包含了数据的工作类型,管理员可再后台对数据进行操作,用户只有访问权限,管理员可对工作类型信息进行增删改查等操作,包含了工作类型信息、添加人、添加时间等内容。 教育程度管理包含了数据的教育程度,管理员可再后台对数据进行操作,用户只有访问权限,管理员可对教育程度信息进行增删改查等操作,包含了教育程度信息、添加人、添加时间等内容。 收入管理包含了数据的序列号、年龄、工作类型、教育程度、婚姻状态、职业、关系、种族、性别、资本收益、资本损失、每周工作时长、原国籍、收入,管理员可再后台对数据进行操作,用户只有访问权限,管理员可对工作类型信息进行增删改查等操作,包含了序列号、年龄、工作类型、教育程度、婚姻状态、职业、关系、种族、性别、资本收益、资本损失、每周工作时长、原国籍、收入等内容。。 本课题基于云服务器分析情况,做如下功能的大数据分析:
针对以上需求,解决方案设计如下: 1.数据生产:使用Python对数据进行清洗,采集数据包含如下内容:年龄、工作类型、教育程度、婚姻状态、职业、关系、种族、性别、资本收益、资本损失、每周工作时长、原国籍、收入等信息。 2. 数据加工处理 使用大数据技术对原始数据进行加工处理,得到用于分析和可视化展示的目标数据。 数据加工处理包括:
分两次过滤:
该过程包括:
该过程包括:
该过程包括:
为满足不同的分析功能,云服务器采集的数据按照不同进行拆解,如时间区间,特定数据维度的拆解
能够向不同的数据存储服务输出数据,包括:
3.数据仓库 对原始数据、各功能数据集多源存储的功能
对原始数据、各功能数据集管理的功能
6.展示内容进行分析包含如下:
7. 可视化呈现 通过大数据的手段对原始数据进行清洗、聚类分析、将分析后的结果采用可视化的图表进行展示。可视化可采用React框架进行Web界面搭建,后台采用Python语言做数据分析,实时展示出分析后的结果,将结果通过Http协议发送给Web端。交互形式采用Post/Get请求,服务端采用Flask框架对项目搭建。对于敏感数据采用PostgreSQL/MySQL/Oracle等数据库实时存储,采用云服务器,如阿里云服务器对项目继承部署,线上交互,实时动态分析,通过可视化的图表直观的展示出分析结果。达到”一图胜千言”的目的。其分析结果展示样例如下: (1)工作类型分布统计; (2)各职业收入信息分析; (3)收入数据统计
7. 系统性能要求 系统数据处理数据请求性能数据处理时间控制在3s内,页面加载时间与响应时间不超过2s,可在chrome浏览器和火狐浏览器下进行测试,系统兼容IE、360等浏览器,分辨率为笔记本,不超过1920*1080。 具有实时数据展示和动态更新的能力、查询无异常的情况喜爱等待的时间不会超过3秒、可视化的页面配置,和响应时间不会超过2秒,同时我们业务展示时用户页面,基本上等待延迟不会超过3秒,可通过线上服务器部署,如线上服务器需要对程序进行监控,如Supervisor对系统进程监控,Pyrhon开发可采用gunicon多进程部署项目,通过Nginx做负载均衡,可保证7*24小时连续稳定工作,每月的故障率不超过3次。 10. 接口规范 系统各个模块功能实现之后需要对其进行功能测试,主要的方法是通过数据增、删、改、查的方式进行测试。另外为输出数据进行主要测试,我们在代码开发过程中,添加了API标准接口输出规范,当数据正确定且合理的情况下,输出“success”,当数据接口异常的时候输出“fail”。 附:附件CSV存放为原始数据,字段解释如下。 课题拟采用的产品和技术包括: Hadoop、Spark、Hive、Python、Scala、JavaScript、JQuery、MySQL、Vue、React |
参考文献:
|
指导教师: 职称: 研究方向: |
学生具备的基础: Hadoop分布式大数据处理框架,Hive数据仓库处理,HBase列式存储数据库,Scala编程语言,Java编程语言,Spark内存计算,Python编程语言,软件工程基础知识,数据库设计和开发知识,Web界面设计和开发知识,JQuery前端框架,Echars图表工具,Bootstrap,D3前端展示组件,以及MySQL业务数据库等相关技术知识。 |