一. 下载数据集
二. 数据集读取
将train.csv放到和python文件的同级目录下,便于使用。
(1)导入需要的模块和包。
import pandas as pd
from sklearn import *
(2)读取文件。
train_df = pd.read_csv('train.csv')
(3)读取文件内容如下:
三. 数据集类别和特征的选取
观察上图数据集,有日期、犯罪种类、描述、星期几、解决方案、地址及XY坐标等多列。我们将“犯罪类别”设置为类别,同时这里不将“罪行描述”、“X/Y坐标”、“结果”作为其特征。
四. 选择合适的朴素贝叶斯模型
sklearn提供了三种朴素贝叶斯模型,选择一个最适合的作为旧金山的犯罪预测。
模型名称
数据分布
特征特点GaussianNB(高斯朴素贝叶斯模型)
连续式数据
特征的数据连续