K近邻和朴素贝叶斯算法的使用

coding=utf-8

“”"
author:lei
function: k近邻算法,欧式距离,两点之间的距离公式
需要进行标准化处理
“”"

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from sklearn.model_selection import GridSearchCV
import pandas as pd

def knncls():
“”"
K近邻预测用户签到位置
:return:
“”"
# 读取数据
data = pd.read_csv("./")
print(data.head(10))

# 处理数据
# 1、缩小数据,查询数据筛选
data = data.query("x>1.0 & x<1.25 & y>2.5 & y<2.75")

# 处理时间的处理  将时间戳转变为年月分秒
time_value = pd.to_datetime(data["time"], unit="s")

print(time_value)

# 多增加一些特征 把日期格式转换为 字典格式
time_value = pd.DatetimeIndex(time_value)

data["day"] = time_value.day
data["hoor"] = time_value.hour
data["weekday"] = time_value.weekend

# 把时间戳特征删除
data.drop(["time"], axis=1)  # sklearn 的列是0,pandas和numpy的列是1

# 把签到数量少于n个目标位置删除
place_count = data.groupby("place_id").count()
tf = place_count[place_count.row_id > 3].reset_index()
data = data[data["place_id"].isin(tf.place_id)]

# 取出数据当中的特征值和目标值
y = data["place_id"]
x = data.drop(['place_id'], axis=1)

# 进行数据的分割
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.75)

# 特征工程(标准化)
std = StandardScaler()

# 对测试集和训练集的特征值进行标准化
x_train = std.fit_transform(x_train)
y_train = std.transform(y_train)

# 进行算法流程  取5个最近的点来确定
knn = KNeighborsClassifier()

# knn.fit(x_train, y_train)
#
# # 得出预测结果
# y_predict = knn.predict(x_test)
#
# print("预测的目标亲到位置为:", y_predict)
#
# # 得出准确率
# print("预测的准确率", knn.score(x_test, y_test))

# 构造一些参数的值进行网格搜索
param = {"n_neighbors": [3, 5, 10]}

gc = GridSearchCV(knn, param_grid=param, cv=2)

gc.fit(x_train, y_train)

# 预测准确率
print("在测试集上的准确率:", gc.score(x_test, y_test))
print("在交叉验证当中最好的模型:", gc.best_score_)
print("最好的模型:", gc.best_estimator_)
print("最好的结果:", gc.cv_results_)

def naviebayes():
“”"
朴素贝叶斯进行文本分类
训练集误差大,结果肯定不好
不需要调参
:return:
“”"
news = fetch_20newsgroups(subset=“all”)

# 进行数据分割
x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.75)

# 对数据集进行
tf = TfidfVectorizer()

# 以训练集中的词的列表进行每篇文章重要性统计
x_train = tf.fit_transform(x_train)
x_test = tf.transform(x_test)

# 进行朴素贝叶斯的预测
mlt = MultinomialNB(alpha=1.0)

mlt.fit(x_train, y_train)
print(x_train.toarray())
y_predict = mlt.predict(x_test)

# 预测的结果
print(y_predict)

# 得出准确率
print(mlt.score(x_test, y_test))

# 得到准确率和召回率
print(classification_report(y_test, y_predict, target_names=news.target_names))

return None

if name == ‘main’:
# knncls()
naviebayes()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值