python-决策树、随即深林

dataset : https://www.basketball-reference.com/leagues/NBA_2014_games.html

import os.path
from collections import defaultdict

from sklearn.model_selection import cross_val_score, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from sklearn.ensemble import RandomForestClassifier
datafile = os.path.join(os.getcwd(),"NBAdata.csv")

dataset = pd.read_csv(datafile,parse_dates=["Date"],skiprows=[1,])
dataset.columns = ["Date", "Start", "Visitor Team", "Visitor PTS", "Home Team", "Home PTS","Score Type", "Attend", "Arena", "Notes"]

# 找出主场获胜球队
dataset["HomeWin"]=dataset["Visitor PTS"] < dataset["Home PTS"]
y_true = dataset["HomeWin"].values

# 创建字典,存储球队上次比赛的结果
won_last=defaultdict(int)
dataset["HomeLastWin"] = False
dataset["VisitorLastWin"] = False
# 书中的dataset.ix 要改成dataset.loc
for index, row in dataset.iterrows():
    home_team = row["Home Team"]
    visitor_team = row["Visitor Team"]
    row["HomeLastWin"] = won_last[home_team]
    row["VisitorLastWin"] = won_last[visitor_team]
    dataset.loc[index]=row
    won_last[home_team]=row["HomeWin"]
    won_last[visitor_team]=not row["HomeWin"]

##### 数据清洗完毕
# print(dataset.loc[20:25])
# 使用决策树分类
clf = DecisionTreeClassifier(random_state=14)

X_previouswins = dataset[["HomeLastWin","VisitorLastWin"]].values
scores = cross_val_score(clf,X_previouswins,y_true,scoring='accuracy')
print("决策树1:")
print("Accuracy: {0:.1f}%".format(np.mean(scores) * 100))

###### 再导入一个表格
datafile = os.path.join(os.getcwd(),"NBA_standing.csv")
standing = pd.read_csv(datafile,skiprows=[0])
# print(standing['Team'])

# 创建一个新特征,创建过程与上一个特征类似。遍历每一行,查找主场队和客场队两支球队的战绩
dataset["HomeTeamRanksHigher"]=0
for index, row in dataset.iterrows():
    home_team = row["Home Team"]
    visitor_team = row["Visitor Team"]
    home_rank = standing.loc[standing["Team"]==home_team]["Rk"].values[0]
    visitor_rank = standing.loc[standing["Team"]==visitor_team]["Rk"].values[0]
    row["HomeTeamRanksHigher"] = int(home_rank>visitor_rank)
    dataset.loc[index]=row

# print(dataset.loc[20:25])

X_homehigher = dataset[["HomeLastWin","VisitorLastWin","HomeTeamRanksHigher"]].values
scores = cross_val_score(clf,X_homehigher,y_true,scoring='accuracy')
print("决策树2:")
print("Accuracy: {0:.1f}%".format(np.mean(scores) * 100))


##### 统计两队上场比赛的情况,作为另外一个特征
last_match_winner = defaultdict(int)
dataset["HomeTeamWonLast"] = 0
for index,row in dataset.iterrows():
    home_team = row["Home Team"]
    visitor_team=row["Visitor Team"]
    teams =tuple(sorted([home_team,visitor_team]))
    row["HomeTeamWonLast"] = 1 if last_match_winner[teams]==row["Home Team"] else 0
    dataset.loc[index] = row
    winner = row["Home Team"] if row["HomeWin"] else row["Visitor Team"]
    last_match_winner[teams]=winner

X_lastwinner = dataset[["HomeTeamRanksHigher","HomeTeamWonLast",]].values
scores = cross_val_score(clf,X_lastwinner,y_true,scoring='accuracy')
print("决策树3:")
print("Accuracy: {0:.1f}%".format(np.mean(scores) * 100))

####
# 在训练数据量很大的情况下能否得到有效的分类模型
####
encoding = LabelEncoder()
encoding.fit(dataset["Home Team"].values)
encoding.fit(dataset["Visitor Team"].values)
home_team = encoding.transform(dataset["Home Team"].values)
visitor_team = encoding.transform(dataset["Visitor Team"].values)
X_teams = np.vstack([home_team,visitor_team]).T
# OneHotEncoder 把整数转换为二进制数字
onehot = OneHotEncoder()
X_teams_expanded = onehot.fit_transform(X_teams).todense()
scores = cross_val_score(clf,np.asarray(X_teams_expanded),y_true,scoring='accuracy')
print("决策树4:")
print("Accuracy: {0:.1f}%".format(np.mean(scores) * 100))

clf1 = RandomForestClassifier(random_state=14)
scores=cross_val_score(clf1,X_teams,y_true,scoring='accuracy')
print("随机深林:")
print("Accuracy: {0:.1f}%".format(np.mean(scores) * 100))

####
# 用多几个特征的随机森林
####
X_all = np.hstack([X_homehigher,X_teams])
scores=cross_val_score(clf1,X_all,y_true,scoring='accuracy')
print("随机深林2:")
print("Accuracy: {0:.1f}%".format(np.mean(scores) * 100))
###
# 使用GridSearchCV找到最佳参数
###
parameter_space = {
    "max_features":[2,5,'auto'],
    "n_estimators":[100,200],
    "criterion":["gini","entropy"],
    "min_samples_leaf":[2,4,6],
}
grid = GridSearchCV(clf1,parameter_space)
grid.fit(X_all,y_true)
print("Grid result:")
print("Accuracy: {0:.1f}%".format(grid.best_score_ * 100))
print(grid.best_params_)

###
# 用最优模型的参数
###
clf2 = RandomForestClassifier(bootstrap=True,criterion='entropy',max_depth=None,max_features=5,max_leaf_nodes=None,min_samples_leaf=2,min_samples_split=2,n_estimators=100,n_jobs=1,oob_score=False,random_state=14,verbose=0)
X_all = np.hstack([X_homehigher,X_teams])
scores=cross_val_score(clf2,X_all,y_true,scoring='accuracy')
print("Grid result 2 :")
print("Accuracy: {0:.1f}%".format(np.mean(scores) * 100))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
旅游社交小程序功能有管理员和用户。管理员有个人中心,用户管理,每日签到管理,景点推荐管理,景点分类管理,防疫查询管理,美食推荐管理,酒店推荐管理,周边推荐管理,分享圈管理,我的收藏管理,系统管理。用户可以在微信小程序上注册登录,进行每日签到,防疫查询,可以在分享圈里面进行分享自己想要分享的内容,查看和收藏景点以及美食的推荐等操作。因而具有一定的实用性。 本站后台采用Java的SSM框架进行后台管理开发,可以在浏览器上登录进行后台数据方面的管理,MySQL作为本地数据库,微信小程序用到了微信开发者工具,充分保证系统的稳定性。系统具有界面清晰、操作简单,功能齐全的特点,使得旅游社交小程序管理工作系统化、规范化。 管理员可以管理用户信息,可以对用户信息添加修改删除。管理员可以对景点推荐信息进行添加修改删除操作。管理员可以对分享圈信息进行添加,修改,删除操作。管理员可以对美食推荐信息进行添加,修改,删除操作。管理员可以对酒店推荐信息进行添加,修改,删除操作。管理员可以对周边推荐信息进行添加,修改,删除操作。 小程序用户是需要注册才可以进行登录的,登录后在首页可以查看相关信息,并且下面导航可以点击到其他功能模块。在小程序里点击我的,会出现关于我的界面,在这里可以修改个人信息,以及可以点击其他功能模块。用户想要把一些信息分享到分享圈的时候,可以点击新增,然后输入自己想要分享的信息就可以进行分享圈的操作。用户可以在景点推荐里面进行收藏和评论等操作。用户可以在美食推荐模块搜索和查看美食推荐的相关信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

脑电信号要分类

你的鼓励是我创作的前进动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值