之前只是单纯的学习各种算法,没有实际联系过,因此决定在kaggle上先找一个入门级别的项目学习一下,希望能获得更多的知识。现在找的项目是预测房价:House Prices: Advanced Regression Techniques。链接为:https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview。
已下载数据集,但是特征数据有很多,所以决定先整理一下。
1、MSSubClass:建筑物类型
不同类型由不同的数字表示,具体如下:
20 1-STORY 1946 & NEWER ALL STYLES
30 1-STORY 1945 & OLDER
40 1-STORY W/FINISHED ATTIC ALL AGES
45 1-1/2 STORY - UNFINISHED ALL AGES
50 1-1/2 STORY FINISHED ALL AGES
60 2-STORY 1946 & NEWER
70 2-STORY 1945 & OLDER
75 2-1/2 STORY ALL AGES
80 SPLIT OR MULTI-LEVEL
85 SPLIT FOYER
90 DUPLEX - ALL STYLES AND AGES
120 1-STORY PUD (Planned Unit Development) - 1946 & NEWER
150 1-1/2 STORY PUD - ALL AGES
160 2-STORY PUD - 1946 & NEWER
180 PUD - MULTILEVEL - INCL SPLIT LEV/FOYER
190 2 FAMILY CONVERSION - ALL STYLES AND AGES
2、MSZoning:房屋销售分类
不同类型由不同的字母表示,具体如下:
A Agriculture 农业
C Commercial 商业
FV Floating Village Residential 浮村住宅
I Industrial 工业
RH Residential High Density 高密度住宅
RL Residential Low Density 低密度住宅
RP Residential Low Density Park 低密度住宅庭院
RM Residential Medium Density 中密度住宅
3、LotFrontage:与房屋相连的街道的延长英尺,就是街道的长度
4、LotArea:房屋占地面积(平方英尺)
5、Street:连接房屋的道路类型
Grvl Gravel 砾石
Pave Paved 铺平的
6、Alley: 连接房屋的胡同道路类型
Grvl Gravel 砾石
Pave Paved 铺平的
NA No alley access 没有胡同
7、LotShape: 房屋的形状
Reg Regular 规则的
IR1 Slightly irregular 轻微不规则
IR2 Moderately Irregular 中度不规则
IR3 Irregular 不规则
8、LandContour: 房屋的平坦度
Lvl Near Flat/Level 几乎平坦
Bnk Banked - Quick and significant rise from street grade to building 倾斜-从街道级快速显著上升到房屋
HLS Hillside - Significant slope from side to side 山坡-从一侧到另一侧明显的坡度
Low Depression 凹陷
9、Utilities: 可用的设施类型
AllPub All public Utilities (E,G,W,& S) 所有设施
NoSewr Electricity, Gas, and Water (Septic Tank) 电、气、水(化粪池)
NoSeWa Electricity and Gas Only 只有电和气
ELO Electricity only 只有电
10、LotConfig: 房屋布局
Inside Inside lot 内侧
Corner Corner lot 拐角
CulDSac Cul-de-sac 死胡同
FR2 Frontage on 2 sides of property 房屋两侧临街
FR3 Frontage on 3 sides of property 房屋三侧临街