基于大数据的收入数据分析系统任务书_关于大数据的任务书-CSDN博客

本文链接：https://blog.csdn.net/2301_79305643/article/details/132521176

论文（设计）题目：基于大数据的收入数据分析系统

问题的提出：

采用大数据集群进行搭建环境，通过分布式进行部署项目，设计管理端和用户端，管理端可对调研的国籍、种族、职业、工作类型、教育程度、婚姻状态、收入信息进行数据的清洗处理及管理工作，用户端针对清洗后的数据进行分析，包含对国籍数据统计、各国籍性别分布、种族分布统计、各种族工作时间统计、各职业信息分布、工作时间与职业分布统计、工作类型分布统计、教育程度统计、教育程度与工作时长分析、各职业收入信息分析、收入数据统计、婚姻与收入分析、种族与收入分析及职业与收入分析等功能，从样本数据分类情况来看，各种分类将原始样本数据进行初步分类，平衡样本数据使得少数类的数据样本从测试教育收益与婚姻幸福关系，集成进一步全面优化分类效果。

课题研究的目的和意义：

在社区一级，鉴于上海流动人口众多、人户分离严重，行政登记的常住人口资料往往不能反应实际情况，但门牌地址系统相对完整，分三步获取80后调查对象样本：随机选取地址,对选中地址排查常住人口,随机抽取80后调查对象。

根据以往调查经验和调查进度要求，本次调查的目标有效样本量为2000人。考虑到调查的执行过程中，访问失败、拒访等因素，为达到目标样本量，本调查采取扩大基础样本量的方法。根据第六次人口普查数据，上海约三分之一的家庭有80后，再根据以往经验，复旦大学调查中心上海入户访问的成功率大体能实现60-70%。因此决定在每个社区随机抽取130个地址，基础样本量约为3470个地址/人（80*130*1/3）。为减少地址空号、空关房和非居民房等对抽样的影响，每个社区另留20个备用地址。根据70%的访问成功率估计，预期有效样本为2400人。即使只达到60%的访问成功率，预期有效样本仍然可以保证在2000人以上。以特定人群为主体的跟踪性调查。之所以选择跟踪调查一是回答重大社会科学问题因果机制研究的需要二是跟踪中国社会长期变化的需要三是这种研究设计对社会科学的研究分析方法有较高要求，有助于使用与发展新的分析方法四是能体现复旦文理医交叉的优势和特色五是能更好地区别于北大和人大等已经开展的大规模调查。

课题研究的主要内容和解决的方法：

本系统所采用的数据来源于竞赛分析网站，分别包含了以下模块及数据。

国籍管理包含了数据的国籍，管理员可再后台对数据进行操作，用户只有访问权限，管理员可对国籍信息进行增删改查等操作，包含了国籍信息、添加人、添加时间等内容。

种族信息管理包含了数据的种族，管理员可再后台对数据进行操作，用户只有访问权限，管理员可对种族信息进行增删改查等操作，包含了种族信息、添加人、添加时间等内容。

职业类型管理包含了数据的职业类型，管理员可再后台对数据进行操作，用户只有访问权限，管理员可对职业类型信息进行增删改查等操作，包含了职业类型信息、添加人、添加时间等内容。

工作类型管理包含了数据的工作类型，管理员可再后台对数据进行操作，用户只有访问权限，管理员可对工作类型信息进行增删改查等操作，包含了工作类型信息、添加人、添加时间等内容。

教育程度管理包含了数据的教育程度，管理员可再后台对数据进行操作，用户只有访问权限，管理员可对教育程度信息进行增删改查等操作，包含了教育程度信息、添加人、添加时间等内容。

收入管理包含了数据的序列号、年龄、工作类型、教育程度、婚姻状态、职业、关系、种族、性别、资本收益、资本损失、每周工作时长、原国籍、收入，管理员可再后台对数据进行操作，用户只有访问权限，管理员可对工作类型信息进行增删改查等操作，包含了序列号、年龄、工作类型、教育程度、婚姻状态、职业、关系、种族、性别、资本收益、资本损失、每周工作时长、原国籍、收入等内容。。

本课题基于云服务器分析情况，做如下功能的大数据分析：

国籍信息分析
种族信息分析
职业信息分析
工作类型分析
教育程度分析
收入数据分析

针对以上需求，解决方案设计如下：

1．数据生产：使用Python对数据进行清洗，采集数据包含如下内容：年龄、工作类型、教育程度、婚姻状态、职业、关系、种族、性别、资本收益、资本损失、每周工作时长、原国籍、收入等信息。

2. 数据加工处理

使用大数据技术对原始数据进行加工处理，得到用于分析和可视化展示的目标数据。

数据加工处理包括：

数据清洗处理

分两次过滤：

对“脏”数据、不符合要求数据、空瘪数据进行集中过滤；
过滤选择重复数据相关内容；只保留数据内容丰富的数据集。
在JSON表中，需要对JSON数据进行数据的清洗和录入，存储到MySQL数据库中。

数据格式化处理

该过程包括：

统一数据结构编码
统一数据类型
统一数字计量单位
格式化时间，北京时间（YYYY-MM-DD 24HH:MI:SS）
为每条数据计算唯一标识

数据关联补齐处理

该过程包括：

为数据增加属性信息：资本收益、资本损失、每周工作时长、原国籍、收入信息补齐
为数据增加指代信息：数据为空或者异常可指代为暂无信息等

数据聚类、归并处理

该过程包括：

针对数据存在重复都情况、或相似数据进行集中归并处理
针对数据是零散分布，为满足不同分析功能，将相同维度数据进行聚类

数据水平、垂直分解

为满足不同的分析功能，云服务器采集的数据按照不同进行拆解，如时间区间，特定数据维度的拆解

数据多源输出

能够向不同的数据存储服务输出数据，包括：

大数据存储平台HDFS、HIVE
业务数据库，MySQL
本地文件系统，CSV表格

通过Linux服务器可查看该项目执行情况，通过Supervisor进行进程监控

3．数据仓库

对原始数据、各功能数据集多源存储的功能

使用大数据平台HDFS服务存储
使用MySQL存储各功能数据集

对原始数据、各功能数据集管理的功能

支持系统查看、下载、删除服务器数据、各数据集

6．展示内容进行分析包含如下：

国籍信息分析针对国籍数据统计、各国籍性别分布，其中国籍数据统计采用了多重柱状图：横轴国籍、纵轴男女人数、图例、鼠标滑动等，各国籍性别分布使用饼状图：性别、人数、占比、鼠标悬浮、图例等内容进行查看，通过国籍等筛选条件对数据及逆行查询。
种族信息分析包含了种族分布统计、各种族工作时间统计，其中种族分布统计采用饼状图：各种族分布占比、数量、图例等信息对数据进行展示，各种族工作时间统计采用了多重柱状图：横轴工作时间、纵轴各种族数量统计，通过以下筛选条件：国籍（下拉选择）、性别（男性（ Male）、女性（ Female））对数据进行多维度的查询。
职业信息分析包含了各职业信息分布、工作时间与职业分布统计，各职业信息分布采用柱状图：横轴职业、纵轴人数、鼠标拖拽等对隔行职业进行聚合统计，工作时间与职业分布统计采用了多重柱状图：横轴工作时间、纵轴职业分布进行展示，同时可通过鼠标进行图例的点击查看，对比和行业大概工作时间，并进行比较分析。。
工作类型分析通过饼状图的形式对其进行展示针对当前采集的工作类型数量、通过时间、国籍、性别等维度进行数据的查询和筛选工作，鼠标悬浮再图例上可查看到当前的数量、占比等内容，通过可视化的形式对数据进行表达。
教育程度分析针对教育程度统计及教育程度与工作时长分析，教育程度统计使用柱状图：横轴教育程度、各类人群统计、鼠标滑动等效果对数据进行呈现，教育程度与工作时长分析采用了多维度柱状图：横轴工作时常区间、纵轴手教育程度、图例、鼠标悬浮等效果对教育信息进行展示，并通过国籍、教育程度等信息进行多维度的搜索。
收入分析针对一下内容通过以下筛选条件：年龄（区间）、工作类型（下拉选择）、教育程度（下拉选择）、婚姻状态（下拉：已婚（ Married-civ-spouse）、离婚（ Divorced）、未婚（ Never-married）、种族（下拉选择）、性别（男性（ Male）、女性（ Female））、国籍等信息进行筛选。

7. 可视化呈现

通过大数据的手段对原始数据进行清洗、聚类分析、将分析后的结果采用可视化的图表进行展示。可视化可采用React框架进行Web界面搭建，后台采用Python语言做数据分析，实时展示出分析后的结果，将结果通过Http协议发送给Web端。交互形式采用Post/Get请求，服务端采用Flask框架对项目搭建。对于敏感数据采用PostgreSQL/MySQL/Oracle等数据库实时存储，采用云服务器，如阿里云服务器对项目继承部署，线上交互，实时动态分析，通过可视化的图表直观的展示出分析结果。达到”一图胜千言”的目的。其分析结果展示样例如下：

（1）工作类型分布统计；

（2）各职业收入信息分析；

（3）收入数据统计

7. 系统性能要求

系统数据处理数据请求性能数据处理时间控制在3s内，页面加载时间与响应时间不超过2s，可在chrome浏览器和火狐浏览器下进行测试，系统兼容IE、360等浏览器，分辨率为笔记本，不超过1920*1080。

具有实时数据展示和动态更新的能力、查询无异常的情况喜爱等待的时间不会超过3秒、可视化的页面配置，和响应时间不会超过2秒，同时我们业务展示时用户页面，基本上等待延迟不会超过3秒，可通过线上服务器部署，如线上服务器需要对程序进行监控，如Supervisor对系统进程监控，Pyrhon开发可采用gunicon多进程部署项目，通过Nginx做负载均衡，可保证7*24小时连续稳定工作，每月的故障率不超过3次。

10. 接口规范

系统各个模块功能实现之后需要对其进行功能测试，主要的方法是通过数据增、删、改、查的方式进行测试。另外为输出数据进行主要测试，我们在代码开发过程中，添加了API标准接口输出规范，当数据正确定且合理的情况下，输出“success”，当数据接口异常的时候输出“fail”。

附：附件CSV存放为原始数据，字段解释如下。

课题拟采用的产品和技术包括：

Hadoop、Spark、Hive、Python、Scala、JavaScript、JQuery、MySQL、Vue、React

参考文献：

Hadoop权威指南
Spark编程指南
Hive编程指南
Scala实用指南
Python学习手册
Vue、React框架指南
Java EE体系相关技术文档或资料
MySQL数据库的相关技术文档

指导教师：

职称：

研究方向：

学生具备的基础：

Hadoop分布式大数据处理框架，Hive数据仓库处理，HBase列式存储数据库，Scala编程语言，Java编程语言，Spark内存计算，Python编程语言，软件工程基础知识，数据库设计和开发知识，Web界面设计和开发知识，JQuery前端框架，Echars图表工具，Bootstrap，D3前端展示组件，以及MySQL业务数据库等相关技术知识。