一 项目简介
在1934到1963年间,旧金山因为它的高犯罪率而臭名昭著
我们这个项目的数据集包括了近12年的在旧金山发生的犯罪报告,给定了具体的时间和位置,我们的目标是预测出具体的犯罪种类。
二 数据概览
这个数据集中数据的特征并不多,但是样本量有一点大。特征有以下这些:
- Dates - 案发的具体时间
- Category - 案件的种类,也是我们要去预测的
- Descript - 案件描述(仅在训练集中有)
- DayOfWeek - 星期几
- PdDistrict - 属于哪个片区管辖
- Resolution - 案件如何解决(仅在训练集中有)
- Address - 具体案发地址
- X - 案发地x坐标
- Y - 案发地y坐标
三 数据预处理
import pandas as pd
import numpy as np
import seaborn as sns
train=pd.read_csv(r'...\Kaggle\sf-crime