python犯法_机器学习 -- 朴素贝叶斯(案例:预测旧金山犯罪)

本文通过分析旧金山犯罪数据集,选择伯努利朴素贝叶斯模型进行预测。首先对数据进行预处理,包括类别编码和特征因子化,然后使用训练集与测试集划分数据,最后训练模型并评估预测精度约为22%。
摘要由CSDN通过智能技术生成

一. 下载数据集

2019102810134992.png

二. 数据集读取

将train.csv放到和python文件的同级目录下,便于使用。

(1)导入需要的模块和包。

import pandas as pd

from sklearn import *

(2)读取文件。

train_df = pd.read_csv('train.csv')

(3)读取文件内容如下:

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzM4MDU2ODkz,size_16,color_FFFFFF,t_70

三. 数据集类别和特征的选取

观察上图数据集,有日期、犯罪种类、描述、星期几、解决方案、地址及XY坐标等多列。我们将“犯罪类别”设置为类别,同时这里不将“罪行描述”、“X/Y坐标”、“结果”作为其特征。

四. 选择合适的朴素贝叶斯模型

sklearn提供了三种朴素贝叶斯模型,选择一个最适合的作为旧金山的犯罪预测。

模型名称

数据分布

特征特点GaussianNB(高斯朴素贝叶斯模型)

连续式数据

特征的数据连续

好的,你的问题是关于鸢尾花分类的Python实现,利用三种分类器实现鸢尾花分类。 鸢尾花分类是机器学习中常用的分类问题之一,可以使用多种分类算法来解决。在Python中,可以使用scikit-learn库来实现鸢尾花分类。 以下是三种常用的分类器实现鸢尾花分类的代码示例: 1. 贝叶斯分类器 ```python from sklearn.datasets import load_iris from sklearn.naive_bayes import GaussianNB from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 加载数据集 iris = load_iris() X = iris.data y = iris.target # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 创建贝叶斯分类器 clf = GaussianNB() # 训练模型 clf.fit(X_train, y_train) # 预测测试集 y_pred = clf.predict(X_test) # 计算准确率 accuracy = accuracy_score(y_test, y_pred) print('Accuracy:', accuracy) ``` 2. 决策树分类器 ```python from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 加载数据集 iris = load_iris() X = iris.data y = iris.target # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 创建决策树分类器 clf = DecisionTreeClassifier() # 训练模型 clf.fit(X_train, y_train) # 预测测试集 y_pred = clf.predict(X_test) # 计算准确率 accuracy = accuracy_score(y_test, y_pred) print('Accuracy:', accuracy) ``` 3. 支持向量机分类器 ```python from sklearn.datasets import load_iris from sklearn.svm import SVC from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 加载数据集 iris = load_iris() X = iris.data y = iris.target # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 创建支持向量机分类器 clf = SVC() # 训练模型 clf.fit(X_train, y_train) # 预测测试集 y_pred = clf.predict(X_test) # 计算准确率 accuracy = accuracy_score(y_test, y_pred) print('Accuracy:', accuracy) ``` 以上就是三种常用的分类器实现鸢尾花分类的Python代码示例,希望能对你有所帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值