读取lianjia.csv文件里的数据
import numpy as np
import pandas as pd
df1 = pd.read_csv('链家.csv')
df1
Direction Elevator Floor Garden Layout Region Price Renovation Size Year
0 南北 无电梯 低楼层(共6层) 翠竹苑 3室1厅 浦东 365.0 简装 77.84 1995.0
1 南 有电梯 低楼层(共36层) 百汇园 3室2厅 徐汇 1449.0 精装 145.2 1995.0
2 南北 有电梯 中楼层(共26层) 仁恒河滨城(二期) 3室2厅 浦东 1630.0 精装 161.94 1995.0
3 南 有电梯 高楼层(共30层) 财富海景花园 3室2厅 浦东 2000.0 精装 185 1995.0
4 东 有电梯 中楼层(共26层) 仁恒滨江园 3室2厅 浦东 1360.0 精装 130.41 1995.0
... ... ... ... ... ... ... ... ... ... ...
1705 南 无电梯 高楼层(共6层) 水电新村 1室2厅 杨浦 260.0 精装 57.62 1995.0
1706 南 NaN 中楼层(共11层) 祥安菊苑 3室2厅 浦东 250.0 其他 126.58 1995.0
1707 南北 无电梯 低楼层(共6层) 梅陇四村 2室1厅 徐汇 320.0 其他 64.58 1995.0
1708 南 NaN 高楼层(共18层) 翔和雅苑 2室1厅 嘉定 260.0 毛坯 69.6 1995.0
1709 南 有电梯 低楼层(共11层) 华泾绿苑 1室1厅 徐汇 310.0 毛坯 64.56 1995.0
1710 rows × 10 columns
观察结构,调整列索引顺序(Region",“Garden”,“Layout”,“Floor”,“Year”,“Size”,“Elevator”,“Direction”,“Renovation”,“Price”)
df2= df1.rename(columns={"Direction":"Region","Elevator":"Garden","Floor":"Layout","Garden":"Floor","Layout":"Year","Region":"Size","Price":"Elevator","Renovation":"Direction","Size":"Renovation","Year":"Price"},inplace=True)
df1
Region Garden Layout Floor Year Size Elevator Direction Renovation Price
0 南北 无电梯 低楼层(共6层) 翠竹苑 3室1厅 浦东 365.0 简装 77.84 1995.0
1 南 有电梯 低楼层(共36层) 百汇园 3室2厅 徐汇 1449.0 精装 145.2 1995.0
2 南北 有电梯 中楼层(共26层) 仁恒河滨城(二期) 3室2厅 浦东 1630.0 精装 161.94 1995.0
3 南 有电梯 高楼层(共30层) 财富海景花园 3室2厅 浦东 2000.0 精装 185 1995.0
4 东 有电梯 中楼层(共26层) 仁恒滨江园 3室2厅 浦东 1360.0 精装 130.41 1995.0
... ... ... ... ... ... ... ... ... ... ...
1705 南 无电梯 高楼层(共6层) 水电新村 1室2厅 杨浦 260.0 精装 57.62 1995.0
1706 南 NaN 中楼层(共11层) 祥安菊苑 3室2厅 浦东 250.0 其他 126.58 1995.0
1707 南北 无电梯 低楼层(共6层) 梅陇四村 2室1厅 徐汇 320.0 其他 64.58 1995.0
1708 南 NaN 高楼层(共18层) 翔和雅苑 2室1厅 嘉定 260.0 毛坯 69.6 1995.0
1709 南 有电梯 低楼层(共11层) 华泾绿苑 1室1厅 徐汇 310.0 毛坯 64.56 1995.0
1710 rows × 10 columns
增加一个列关于目前状况(state),是否卖出状态随机设定
df3 = pd.read_csv('链家.csv')
df3['state']='已售'
df3
Direction Elevator Floor Garden Layout Region Price Renovation Size Year state
0 南北 无电梯 低楼层(共6层) 翠竹苑 3室1厅 浦东 365.0 简装 77.84 1995.0 已售
1 南 有电梯 低楼层(共36层) 百汇园 3室2厅 徐汇 1449.0 精装 145.2 1995.0 已售
2 南北 有电梯 中楼层(共26层) 仁恒河滨城(二期) 3室2厅 浦东 1630.0 精装 161.94 1995.0 已售
3 南 有电梯 高楼层(共30层) 财富海景花园 3室2厅 浦东 2000.0 精装 185 1995.0 已售
4 东 有电梯 中楼层(共26层) 仁恒滨江园 3室2厅 浦东 1360.0 精装 130.41 1995.0 已售
... ... ... ... ... ... ... ... ... ... ... ...
1705 南 无电梯 高楼层(共6层) 水电新村 1室2厅 杨浦 260.0 精装 57.62 1995.0 已售
1706 南 NaN 中楼层(共11层) 祥安菊苑 3室2厅 浦东 250.0 其他 126.58 1995.0 已售
1707 南北 无电梯 低楼层(共6层) 梅陇四村 2室1厅 徐汇 320.0 其他 64.58 1995.0 已售
1708 南 NaN 高楼层(共18层) 翔和雅苑 2室1厅 嘉定 260.0 毛坯 69.6 1995.0 已售
1709 南 有电梯 低楼层(共11层) 华泾绿苑 1室1厅 徐汇 310.0 毛坯 64.56 1995.0 已售
1710 rows × 11 columns
查找楼层低的房子(这里提取低楼层)
import re
df4= pd.read_csv('链家.csv')
df40 = df4['Floor']
df00 = df40.apply(lambda x:'低楼层' if re.search('低楼层',x) else '中高楼层')
df00
0 低楼层
1 低楼层
2 中高楼层
3 中高楼层
4 中高楼层
...
1705 中高楼层
1706 中高楼层
1707 低楼层
1708 中高楼层
1709 低楼层
Name: Floor, Length: 1710, dtype: object
电梯这列存在缺失值,想办法处理下缺失值
df5= pd.read_csv('链家.csv')
df5.dropna(inplace=True)
df5
Direction Elevator Floor Garden Layout Region Price Renovation Size Year
0 南北 无电梯 低楼层(共6层) 翠竹苑 3室1厅 浦东 365.0 简装 77.84 1995.0
1 南 有电梯 低楼层(共36层) 百汇园 3室2厅 徐汇 1449.0 精装 145.2 1995.0
2 南北 有电梯 中楼层(共26层) 仁恒河滨城(二期) 3室2厅 浦东 1630.0 精装 161.94 1995.0
3 南 有电梯 高楼层(共30层) 财富海景花园 3室2厅 浦东 2000.0 精装 185 1995.0
4 东 有电梯 中楼层(共26层) 仁恒滨江园 3室2厅 浦东 1360.0 精装 130.41 1995.0
... ... ... ... ... ... ... ... ... ... ...
1703 南北 有电梯 低楼层(共22层) 徐汇苑 3室2厅 徐汇 2120.0 精装 207 1995.0
1704 南北 有电梯 高楼层(共35层) 永业公寓 3室2厅 黄浦 1580.0 精装 143.39 1995.0
1705 南 无电梯 高楼层(共6层) 水电新村 1室2厅 杨浦 260.0 精装 57.62 1995.0
1707 南北 无电梯 低楼层(共6层) 梅陇四村 2室1厅 徐汇 320.0 其他 64.58 1995.0
1709 南 有电梯 低楼层(共11层) 华泾绿苑 1室1厅 徐汇 310.0 毛坯 64.56 1995.0
1622 rows × 10 columns