【项目09】 中国姓氏排行研究
'''
【项目09】 中国姓氏排行研究
作业要求
1、数据清洗、整合
要求:
① 将“data01”、“data02”分别读取,并且合并成一个数据
② 结合“户籍地城市编号”及“中国城市代码对照表”数据,将城市经纬度连接进数据中
③ 分别提取“工作地”中的省、市
提示:
① 可以先读取“data01”、“data02”,然后用pd.concat()来连接数据
② 新建字段“工作地-省”,“工作地-市”,“工作地-区县”,如果数据中“工作地”字段无法提取省和市,则用“未识别”填充单元格
* 通过查看识别后的单元格,如果字数超过5则为“未识别”
2、查看姓氏“普遍指数”,普遍指数=姓氏人口数量
要求:
① 将数据按照“姓”做统计,找到数量最多的TOP20
② 分别制作图表,查看姓氏TOP20的数量及占比
* 建议用bokeh出柱状图,并且为联动图表
③ 查看“王”姓的全国分布
* 这里导出excel高版本文件,用powermap查看,绘制密度图
* 同时可以尝试用echarts绘制空间柱状图来查看
④ 查看“姬”姓的全国分布
* 这里导出excel高版本文件,用powermap查看,绘制密度图
* 同时可以尝试用echarts绘制空间柱状图来查看
提示:
① bokeh中绘制联动图表时用gridplot
② powermap需要office2016的excel才会有,并且必须存储xlsx格式
③ powermap中需要通过在“值”中设置“姓的计数”才能正确显示热力图
④ powermap中可以通过“主题”来调节配色风格 / “平面地图”选项来调整球面可视化或者平面可视化
⑤ echarts绘制图表之前,需要对数据按照“lng”(或者“lat”)汇总,得到同一个地点的该姓氏人数,然后绘图
⑥ ecahrts通过设置以下参数来达到效果:视角远近、点柱大小
3、查看姓氏“奔波指数”,奔波指数=姓氏人均迁徙距离。迁徙距离为户籍地所在地级市与现居住地所在地级市的距离。
要求:
① 根据识别的工作地,通过Geocoding查询到对应坐标
② 选择一个姓氏,计算并查看其姓氏的奔波指数,并计算该姓氏的人均通勤距离
* 在python中筛选数据之后,qgis内做空间分析
③ 按照起点和终点做计数,汇总同一个迁徙路径的数据
④ 通过echart制作通勤OD图
* 可以将生成的line文件导出geojson,用空间线性轨迹图来表示
* 这里线的valye为该迁徙路径的汇总计数
提示:
① 可以筛选一些好玩的姓氏:汤、朴、廉、何、叶、冉等等
② 需要对数据的工作地进行筛选,其中“工作地_市”、“工作地_区县”未识别的数据删除掉
③ 导出数据时,尽量columns名用全英文,避免qgis中出现乱码
④ 计算人均通勤距离的时候,需要删除掉户籍地与工作地相同的人(未迁移的人)
⑤ 在官网metrodata.cn的小工具中找到geocoding
⑥ qgis中需要安装插件“LinePlotter”来转线,并在qgis中计算平均通勤距离(需要投影,投影经度带可选48)
⑦ shapefile转geojson时:
* 注意shapefile文件要投影回wgs84地理坐标系
* 删除乱码子弹
* 删除路径距离为0的数据
'''
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline
import warnings
warnings.filterwarnings('ignore')
from bokeh.io import output_notebook
output_notebook()
from bokeh.plotting import figure,show
from bokeh.models import ColumnDataSource
'''
1、数据清洗、整合
要求:
① 将“data01”、“data02”分别读取,并且合并成一个数据
② 结合“户籍地城市编号”及“中国城市代码对照表”数据,将城市经纬度连接进数据中
③ 分别提取“工作地”中的省、市
提示:
① 可以先读取“data01”、“data02”,然后用pd.concat()来连接数据
② 新建字段“工作地-省”,“工作地-市”,“工作地-区县”,如果数据中“工作地”字段无法提取省和市,则用“未识别”填充单元格
* 通过查看识别后的单元格,如果字数超过5则为“未识别”
'''
import os
os.chdir('C:/Users/Hjx/Desktop/项目09中国姓氏排行研究/')
df01 = pd.read_csv('data01.csv',encoding = 'utf-8')
df02 = pd.read_csv('data02.csv',encoding = 'utf-8')
df_city = pd.read_excel('中国行政代码对照表.xlsx')
df = pd.concat([df01,df02])
df = pd.merge(df,df_city,left_on='户籍地城市编号',right_on = '行政编码')
df['工作地'] = df['工作地'].str[:15]
del df['行政编码']
del df['户籍地城市编号']
print('读取数据共%i条' % len(df))
df.head(20)
df['工作地_省'] = df['工作地'].str.split('省').str[0]
df['工作地_市'] = df['工作地'].str.split('省').str[1].str.split('市').str[0]
df['工作地_市'][df['工作地_省'].str.len() > 5] = df['工作地_省'].str.split('市').str[0]
df['工作地_区县'] = ''
df['工作地_区县'][(df['工作地_市'].str.len() < 5)&(df['工作地'].str.contains('区'))] = df['工作地'].str.split('市').str[1].str.split('区').str[0] + '区'
df['工作地_区县'][(df['工作地_市'].str.len() > 5)&(df['工作地'].str.contains('区'))] = df['工作地'].str.split('区').str[0] + '区'
df['工作地_区县'][(df['工作地_市'].str.len() < 5)&(df['工作地'].str.contains('县'))] = df['工作地'].str.split('市').str[1].str.split('县').str[0] + '县'
df['工作地_区县'][(df['工作地_市'].str.len() > 5)&(df['工作地'].str.contains('县'))] = df['工作地'].str.split('县').str[0] + '县'
df['工作地_省'][df['工作地_省'].str.len() > 5] = '未识别'
df['工作地_市'][df['工作地_市'].str.len() > 5] = '未识别'
df['工作地_区县'][(df['工作地_区县'].str.len() > 5) | (df['工作地_区县'].str.len() < 2)] = '未识别'
df.columns = ['姓','工作地','户籍所在地_省','户籍所在地_市','户籍所在地_区县','户籍所在地_lng','户籍所在地_lat',
'工作地_省','工作地_市','工作地_区县']
print('读取数据共%i条' % len(df))
df.head(20)
'''
2、查看姓氏“普遍指数”,普遍指数=姓氏人口数量
要求:
① 将数据按照“姓”做统计,找到数量最多的TOP20
② 分别制作图表,查看姓氏TOP20的数量及占比
* 建议用bokeh出柱状图,并且为联动图表
③ 查看“王”姓的全国分布
* 这里导出excel高版本文件,用powermap查看,绘制密度图
* 同时可以尝试用echarts绘制空间柱状图来查看
④ 查看“姬”姓的全国分布
* 这里导出excel高版本文件,用powermap查看,绘制密度图
* 同时可以尝试用echarts绘制空间柱状图来查看
提示:
① bokeh中绘制联动图表时用gridplot
② powermap需要office2016的excel才会有,并且必须存储xlsx格式
③ powermap中需要通过在“值”中设置“姓的计数”才能正确显示热力图
④ powermap中可以通过“主题”来调节配色风格 / “平面地图”选项来调整球面可视化或者平面可视化
⑤ echarts绘制图表之前,需要对数据按照“lng”(或者“lat”)汇总,得到同一个地点的该姓氏人数,然后绘图
⑥ ecahrts通过设置以下参数来达到效果:视角远近、点柱大小
'''
name_count = df['姓'].value_counts()[:20]
result1_01 = pd.DataFrame({'count':name_count, 'count_pre':name_count/name_count.sum()})
result1_01
from bokeh.models import HoverTool
from bokeh.layouts import gridplot
name_lst = result1_01.index.tolist()
source = ColumnDataSource(result1_01)
hover1 = HoverTool(tooltips=[("姓氏计数", "@count")])
result1 = figure(plot_width=800, plot_height=250,x_range = name_lst,
title="中国姓氏TOP20 - 计数" ,
tools=[hover1,'reset,xwheel_zoom,pan'])
result1.vbar(x='index', top='count', source=source,width=0.9, alpha = 0.7,color = 'red')
result1.ygrid.grid_line_dash = [6, 4]
result1.xgrid.grid_line_dash = [6, 4]
hover2 = HoverTool(tooltips=[("姓氏占比", "@count_pre")])
result2 = figure(plot_width=800, plot_height=250,x_range = result1.x_range,
title="中国姓氏TOP20 - 占比" ,
tools=[hover2,'reset,xwheel_zoom,pan'])
result2.vbar(x='index', top='count_pre', source=source,width=0.9, alpha = 0.7,color = 'green')
result2.ygrid.grid_line_dash = [6, 4]
result2.xgrid.grid_line_dash = [6, 4]
p = gridplot([[result1], [result2]])
show(p)
data_wang1 = df[df['姓'] == '王']
writer = pd.ExcelWriter('C:/Users/Hjx/Desktop/wang1.xlsx')
data_wang1.to_excel(writer,'sheet1',index=False)
writer.save()
data_wang2 = data_wang1.groupby(['姓','户籍所在地_lng','户籍所在地_lat'])['户籍所在地_市'].count()
data_wang2 = data_wang2.reset_index()
writer = pd.ExcelWriter('C:/Users/Hjx/Desktop/wang2.xlsx')
data_wang2.to_excel(writer,'sheet1',index=False)
writer.save()
print('导出完成!')
data_ji1 = df[df['姓'] == '姬']
writer = pd.ExcelWriter('C:/Users/Hjx/Desktop/ji1.xlsx')
data_ji1.to_excel(writer,'sheet1',index=False)
writer.save()
data_ji2 = data_ji1.groupby(['姓','户籍所在地_lng','户籍所在地_lat'])['户籍所在地_市'].count()
data_ji2 = data_ji2.reset_index()
writer = pd.ExcelWriter('C:/Users/Hjx/Desktop/ji2.xlsx')
data_ji2.to_excel(writer,'sheet1',index=False)
writer.save()
print('导出完成!')
'''
3、查看姓氏“奔波指数”,奔波指数=姓氏人均迁徙距离。迁徙距离为户籍地所在地级市与现居住地所在地级市的距离。
要求:
① 根据识别的工作地,通过Geocoding查询到对应坐标
② 选择一个姓氏,计算并查看其姓氏的奔波指数,并计算该姓氏的人均通勤距离
* 在python中筛选数据之后,qgis内做空间分析
③ 按照起点和终点做计数,汇总同一个迁徙路径的数据
④ 通过echart制作通勤OD图
* 可以将生成的line文件导出geojson,用空间线性轨迹图来表示
* 这里线的valye为该迁徙路径的汇总计数
提示:
① 可以筛选一些好玩的姓氏:汤、朴、廉、何、叶、冉等等
② 需要对数据的工作地进行筛选,其中“工作地_市”、“工作地_区县”未识别的数据删除掉
③ 导出数据时,尽量columns名用全英文,避免qgis中出现乱码
④ 计算人均通勤距离的时候,需要删除掉户籍地与工作地相同的人(未迁移的人)
⑤ 在官网metrodata.cn的小工具中找到geocoding
⑥ qgis中需要安装插件“LinePlotter”来转线,并在qgis中计算平均通勤距离(需要投影,投影经度带可选48)
⑦ shapefile转geojson时,注意shapefile文件要投影回wgs84地理坐标系
'''
data_tang = df[['姓','户籍所在地_lng','户籍所在地_lat','工作地_市','工作地_区县']][df['姓'] == '汤']
data_tang = data_tang[data_tang['工作地_市'] != '未识别']
data_tang = data_tang[data_tang['工作地_区县'] != '未识别']
data_tang.columns = ['familyname','birth_lng','birth_lat','work_city','work_district']
writer = pd.ExcelWriter('C:/Users/Hjx/Desktop/tang.xlsx')
data_tang.to_excel(writer,'sheet1',index=False)
writer.save()
print('数据条数为%i条' % len(data_tang))
data_tang.head(10)
【项目10】 房价影响因素挖掘
'''
【项目10】 房价影响因素挖掘
作业要求
1、数据清洗、整合
要求:
① 将“house_rent”、“house_sell”分别读取
② 分别计算平方米建筑面积的月租金、每平方米建筑面积的房价
③ 将数据按照小区名合并
提示:
① 删除缺失值
② 按照小区做均值分析
2、计算“房屋售租比”,并做初步判断
要求:
① 计算指标
② 绘制直方图、箱型图看“售租比”的一个数据分布情况
提示:
① “房屋售租比”=“每平方米建筑面积的房价”/“每平方米建筑面积的月租金”
② 直方图bins数量大于80来作图
3、上海市人口密度、路网密度、餐饮价格和“房屋每平米均价”是否有关系呢?
要求:
① 首先,导出整理好的数据,并qgis中绘制空间格网图,查看房屋每平米均价、房屋每平米租金及售租比数据的空间分布
② 第二,空间统计,分别按照格网对人口密度、路网密度、餐饮价格进行指标统计并标准化
③ 第三,加载上海中心点point空间数据,计算每个网格到市中心距离
④ 第四,将空间格网的“房屋每平米均价”按照距市中心的距离排序,并制作散点图,看看能否挖掘出什么信息
*** 这里市中心点坐标为:lng-353508.848122,lat-3456140.926976 (投影坐标系)
提示:
① 导出csv数据,用dataframe.to_csv()
② qgis加载数据后,以“net_population”为格网数据做空间统计
③ 注意qgis数据都为投影坐标系
④ 人口密度指标 → 已有“net_population”数据
路网密度指标 → 以格网为空间单元,计算道路长度
餐饮价格指标 → 以格网为空间单元,计算餐饮设施的人均均价数据
*** 最后数据导入python中,标准化得分至0-1区间
*** 导入数据后要填充空值为0
*** qgis中可以用结果net数据作为下一个分析数据,以此将统计结果汇总在一张属性表内
*** 格网数据在导出前,先转为点数据,并计算经纬度,这里用投影经纬度,好依据中心点坐标计算离市中心距离
⑤ 清洗数据,去除“售租比”为0的数据
4、按照离市中心距离每10km,分别再次判断人口密度、路网密度、餐饮价格和“房屋每平米均价”的相关程度
要求:
① 按照空间距离分别迭代计算三指标和“房屋每平米均价”的关系
② 绘制折线图查看:随着市中心距离增加,不同指标相关系系数变化情况
*** 建议用bokeh制图
提示:
① 用for循环迭代空间距离,然后筛选数据并计算相关性
② bokeh可以通过多次调用figure.line()来绘制多条折线图
'''
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline
import warnings
warnings.filterwarnings('ignore')
from bokeh.io import output_notebook
output_notebook()
from bokeh.plotting import figure,show
from bokeh.models import ColumnDataSource
'''
1、数据清洗、整合
要求:
① 将“house_rent”、“house_sell”分别读取
② 分别计算平方米建筑面积的月租金、每平方米建筑面积的房价
③ 将数据按照小区名合并
提示:
① 删除缺失值
② 按照小区做均值分析
'''
import os
os.chdir('C:/Users/Hjx/Desktop/项目10房价影响因素挖掘/')
df01 = pd.read_csv('house_rent.csv',engine = 'python')
df02 = pd.read_csv('house_sell.csv',engine = 'python')
df01.dropna(inplace = True)
df02.dropna(inplace = True)
df01.head()
df02.head()
df01['rent_area'] = df01['price']/df01['area']
data_rent = df01[['community','rent_area','lng','lat']].groupby(by = 'community').mean()
data_sell = df02[['property_name','average_price','lng','lat']].groupby(by = 'property_name').mean()
data_rent.reset_index(inplace = True)
data_sell.reset_index(inplace = True)
print('租房数据量为%i条' % len(data_rent))
data_rent.head()
print('售房数据量为%i条' % len(data_sell))
data_sell.head()
data = pd.merge(data_rent,data_sell,left_on ='community',right_on='property_name')
data = data[['community','rent_area','average_price','lng_x','lat_x']]
data.rename(columns={'average_price':'sell_area', 'lng_x':'lng', 'lat_x':'lat'}, inplace = True)
print('合并后数据量为%i条' % len(data))
data.head(10)
'''
2、计算“房屋售租比”,并做初步判断
要求:
① 计算指标
② 绘制直方图、箱型图看“售租比”的一个数据分布情况
提示:
① “房屋售租比”=“每平方米建筑面积的房价”/“每平方米建筑面积的月租金”
② 直方图bins数量大于80来作图
'''
data['sell_rent'] = data['sell_area']/data['rent_area']
print('上海房屋租售比中位数为%i个月' % data['sell_rent'].median())
data['sell_rent'].plot.hist(stacked=True,bins=100,color = 'green',alpha=0.5,grid=True,figsize = (10,4))
plt.title('房屋售租比-直方图')
color = dict(boxes='DarkGreen', whiskers='DarkOrange', medians='DarkBlue', caps='Gray')
data['sell_rent'].plot.box(vert=False, grid = True,color = color,figsize = (10,4))
plt.title('房屋售租比-箱型图')
'''
3、上海市人口密度、路网密度、餐饮价格和“房屋每平米均价”是否有关系呢?
要求:
① 首先,导出整理好的数据,并qgis中绘制空间格网图,查看房屋每平米均价、房屋每平米租金及售租比数据的空间分布
② 第二,空间统计,分别按照格网对人口密度、路网密度、餐饮价格进行指标统计并标准化
③ 第三,加载上海中心点point空间数据,计算每个网格到市中心距离
④ 第四,将空间格网的“房屋每平米均价”按照距市中心的距离排序,并制作散点图,看看能否挖掘出什么信息
*** 这里市中心点坐标为:lng-353508.848122,lat-3456140.926976 (投影坐标系)
提示:
① 导出csv数据,用dataframe.to_csv()
② qgis加载数据后,以“net_population”为格网数据做空间统计
③ 注意qgis数据都为投影坐标系
④ 人口密度指标 → 已有“net_population”数据
路网密度指标 → 以格网为空间单元,计算道路长度
餐饮价格指标 → 以格网为空间单元,计算餐饮设施的人均均价数据
*** 最后数据导入python中,标准化得分至0-1区间
*** 导入数据后要填充空值为0
*** qgis中可以用结果net数据作为下一个分析数据,以此将统计结果汇总在一张属性表内
*** 格网数据在导出前,先转为点数据,并计算经纬度,这里用投影经纬度,好依据中心点坐标计算离市中心距离
⑤ 清洗数据,去除“售租比”为0的数据
'''
data.to_csv('pro10data.csv')
print('finished!')
data_q3 = pd.read_csv('C:/Users/Hjx/Desktop/result02.csv',engine = 'python')
data_q3.fillna(0,inplace = True)
data_q3.head(10)
def f1(data,col):
return (data[col]-data[col].min())/(data[col].max()-data[col].min())
data_q3['人口密度指标'] = f1(data_q3,'Z')
data_q3['路网密度指标'] = f1(data_q3,'roadlength')
data_q3['餐饮价格指标'] = f1(data_q3,'人均消费_')
data_q3['离市中心距离'] = ((data_q3['lng'] - 353508.848122)**2 + (data_q3['lat']-3456140.926976)**2)**0.5
data_q3_test = data_q3[['人口密度指标','路网密度指标','餐饮价格指标','sell_area_','离市中心距离']]
data_q3_test = data_q3_test[data_q3_test['sell_area_']>0].reset_index()
del data_q3_test['index']
data_q3_test.head(10)
fig = plt.figure(figsize = (10,9))
plt.subplots_adjust(hspace=0.4)
ax1 = fig.add_subplot(3,1,1)
ax1.scatter(data_q3_test['人口密度指标'], data_q3_test['sell_area_'],s = 2,alpha = 0.2)
plt.xlabel('人口密度指标')
plt.ylabel('房屋每平米均价')
plt.grid()
ax2 = fig.add_subplot(3,1,2)
ax2.scatter(data_q3_test['路网密度指标'], data_q3_test['sell_area_'],s = 2,alpha = 0.2)
plt.xlabel('路网密度指标')
plt.ylabel('房屋每平米均价')
plt.grid()
ax3 = fig.add_subplot(3,1,3)
ax3.scatter(data_q3_test['餐饮价格指标'], data_q3_test['sell_area_'],s = 2,alpha = 0.2)
plt.xlabel('餐饮价格指标')
plt.ylabel('房屋每平米均价')
plt.grid()
fig = plt.figure(figsize = (10,3))
data_q3_test2 = data_q3_test.sort_values('离市中心距离')
plt.scatter(data_q3_test2['离市中心距离'], data_q3_test2['sell_area_'],color = 'red',s = 3,alpha = 0.5)
plt.xlabel('离市中心距离')
plt.ylabel('房屋每平米均价')
plt.grid()
data_q3_test.corr().loc['sell_area_']
'''
4、按照离市中心距离每10km,分别再次判断人口密度、路网密度、餐饮价格和“房屋每平米均价”的相关程度
要求:
① 按照空间距离分别迭代计算三指标和“房屋每平米均价”的关系
② 绘制折线图查看:随着市中心距离增加,不同指标相关系系数变化情况
*** 建议用bokeh制图
提示:
① 用for循环迭代空间距离,然后筛选数据并计算相关性
② bokeh可以通过多次调用figure.line()来绘制多条折线图
'''
dis = []
rkmd_pearson = []
lwmd_pearson = []
cyjg_pearson = []
zxjl_pearson = []
for distance in range(10000,70000,10000):
datai = data_q3_test[data_q3_test['离市中心距离'] <= distance]
r_value = datai.corr().loc['sell_area_']
dis.append(distance)
rkmd_pearson.append(r_value.loc['人口密度指标'])
lwmd_pearson.append(r_value.loc['路网密度指标'])
cyjg_pearson.append(r_value.loc['餐饮价格指标'])
zxjl_pearson.append(r_value.loc['离市中心距离'])
print('离市中心距离小于等于%i米:' % distance)
print('数据量为%i条' % len(datai))
print('人口密度与房屋每平米均价的相关系数为:%.3f' % r_value.loc['人口密度指标'])
print('路网密度与房屋每平米均价的相关系数为:%.3f' % r_value.loc['路网密度指标'])
print('餐饮价格与房屋每平米均价的相关系数为:%.3f' % r_value.loc['餐饮价格指标'])
print('离市中心距离与房屋每平米均价的相关系数为:%.3f' % r_value.loc['离市中心距离'])
print('-------\n')
from bokeh.models import HoverTool
df_r = pd.DataFrame({'rkmd_pearson':rkmd_pearson,
'lwmd_pearson':lwmd_pearson,
'cyjg_pearson':cyjg_pearson,
'zxjl_pearson':zxjl_pearson},
index = dis)
source = ColumnDataSource(data=df_r)
hover = HoverTool(tooltips=[("离市中心距离", "@index"),
("人口密度相关系数", "@rkmd_pearson"),
("道路密度相关系数", "@lwmd_pearson"),
("餐饮价格相关系数", "@cyjg_pearson"),
("中心距离相关系数", "@zxjl_pearson"),])
p = figure(plot_width=900, plot_height=350, title="随着市中心距离增加,不同指标相关性系数变化情况",
tools=[hover,'box_select,reset,xwheel_zoom,pan,crosshair'])
p.line(x='index',y='rkmd_pearson',source = source,line_alpha = 0.8, line_color = 'green',line_dash = [15,4],legend="人口密度相关系数")
p.circle(x='index',y='rkmd_pearson',source = source, size = 8,color = 'green',alpha = 0.8,legend="人口密度相关系数")
p.line(x='index',y='lwmd_pearson',source = source,line_alpha = 0.8, line_color = 'blue',line_dash = [15,4],legend="道路密度相关系数")
p.circle(x='index',y='lwmd_pearson',source = source, size = 8,color = 'blue',alpha = 0.8,legend="道路密度相关系数")
p.line(x='index',y='cyjg_pearson',source = source,line_alpha = 0.8, line_color = 'black',line_dash = [15,4],legend="餐饮价格相关系数")
p.circle(x='index',y='cyjg_pearson',source = source, size = 8,color = 'black',alpha = 0.8,legend="餐饮价格相关系数")
p.line(x='index',y='zxjl_pearson',source = source,line_alpha = 0.8, line_color = 'red',line_dash = [15,4],legend="中心距离相关系数")
p.circle(x='index',y='zxjl_pearson',source = source, size = 8,color = 'red',alpha = 0.8,legend="中心距离相关系数")
p.legend.location = "center_right"
show(p)
df_r