机器学习
TristaCchi
管理学girl学技术
展开
-
python 查看包的版本
python查看包的版本导入包,输入包名.__version__即可如:import statsmodelsstatsmodels.__version__再如:import scipyscipy.__version__注:(1)version前后是双下划线(2)机器学习相关的一些包不同版本预测结果不一致,包在不停更新,预测能力不断提升...原创 2020-12-08 10:34:05 · 33359 阅读 · 0 评论 -
2020研究生数模整理(3):决策树可视化
本文为随机森林/决策树的决策过程可视化展示,在数模整理(1)中粗略介绍过,这里将简述库export_graphviz的安装,并结合随机森林对决策树的绘制过程进行详细的介绍。1 export_graphviz安装1.1 下载在官网中下载:http://www.graphviz.org/download/;我是win10,使用的是graphviz-2.38,百度云提取:链接:https://pan.baidu.com/s/1BsJLL0QqhXruEXCiqMH9QQ提取码:trst1.2 安装原创 2020-10-11 17:14:47 · 885 阅读 · 1 评论 -
2020研究生数模整理(1):机器学习回归+GridSearch参数调优+AutoML(TPOT)+模型评估+决策树绘制
本文将简单介绍以下三点内容:(1)三种回归模型:线性回归、随机森林(输出决策树图)、梯度提升回归(2)使用GridSearch对机器学习模型进行参数调优(3)自动机器学习包:TPOT1 三种回归模型1.1 线性回归线性回归的原理比较简单,不多说,直接上代码。1.2 随机森林随机森林是基于树的回归,这里会介绍1.2.1 模型1.2.2 决策树输出1.3 梯度提升回归2 GridSearch参数调优3 自动机器学习包:TPOT...原创 2020-09-21 19:53:45 · 1663 阅读 · 0 评论 -
mapreduce(pyspark)
本人刚接触spark,最先学的就是map-reduce,跟大家分享一下对map-reduce的理解。1.Map首先是map,我认为map就是对数据列的处理:抽取或者添加列,下边是例子:1.1 提取rdd1是某用户数据,我们想提取其中的几列用来做分析,先看一下rdd1 的数据print rdd1.take(1)打印结果:[(u’id_first’, u’001’, ...原创 2018-08-23 16:27:16 · 1484 阅读 · 0 评论 -
spark中间结果的存储
spark中如果有中间结果(如抽样结果)需要存储,有两种方式,直接存为rdd,或者collect出来,再存储。存储为rddrdd.saveAsPickleFile("hdfs://ip/rdd")可直接使用。存储为dataframeimport picklerdd_collect = rdd.collect()f1 = open("/root/rdd_collect ....原创 2018-09-10 13:07:07 · 4863 阅读 · 0 评论