魔镜

最新推荐文章于 2022-04-13 01:17:44 发布

行路南

最新推荐文章于 2022-04-13 01:17:44 发布

阅读量775

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/u010414589/article/details/50880677

版权

22 篇文章 5 订阅

订阅专栏

数据分析与清洗：

数据可以分为五类：第三方时间数据、UserInfo、教育情况、Web、Social；前期是对数据进行一个基本的分析，大致如下：

一共从1到24 列
其中只有第10,18列为数值型
第2,4,7,8,19,20，24 为地理位置，且第24列内容较为齐全，猜测为家庭详细地址；有关地理位置的使用情况：
1.1 国家对城市刚刚颁布了城市等级表，有六个等级，代表着发达程度，
1.2 城市有gdp,代表着贫富程度
1.3 按地理位置的经纬度来划分
9为通讯方式，常识上没有关系
18 为年龄，重要属性
22 是婚否，重要属性，里面包含未婚、已婚、离婚、再婚、初婚、不详、D ;
23是学历，重要属性，包含类别更多，且和后面的教育情况有一定关系；

现在不确定各个特征的重要程度，没有随意删除；现在的处理包括：

第三方时间数据依据周期性补值；在此基础上对于各周期均为空的按列均值进行处理；目前保存了两个版本；接下来可以考虑归一化，删除，
UserInfo 这一块内容比较重要，有待深入分析；目前就将婚姻情况的汉字进行了处理；第一、三列进行了众数补值；地理位置列舍弃；通讯信息列舍弃；21列与22完全相关，舍弃；11,12,13列空值过多，舍弃；毕业情况，舍弃；23学历，24户籍，不确定如何处理，暂时舍弃；
教育情况，分别保留第1列和第5列；
web情况，对三类类别型数据进行分类处理；其他列补空值为-1；
social 情况，暂未处理；

目前主要是处理了包含文字的列，以及空值；接下来再继续深入处理；

关注