机器学习实践
侠客儿青争ing
这个作者很懒,什么都没留下…
展开
-
ML_7项目实践
预测模型项目模板—可以分为 分类 与 回归 理解数据的时候 数据可视化的时候 多问几个问题 准备3~5个准确度足够的算法 优化-调参 找最好 模型序列化 ---- 是 同一个模型然后 有新数据的时候继续以此训练 大致总结技巧 快速执行一遍 某些流程要循环 尝试每一个步骤– : 在模板的每一个步骤尝试做点什么,虽然直接可能不能提高准确度啥的 但是蝴蝶效应,可能之后的步骤便会因此 曲折...原创 2020-07-22 16:29:54 · 93 阅读 · 0 评论 -
ML_6结果部署
持久化加载模型 用 pickle序列化和反序列化机器学习模型 用joblib 生成模型考虑 序列化和反序列化要相同的: python版本 类库版本 手动序列化原创 2020-01-12 10:39:58 · 84 阅读 · 0 评论 -
ML_5优化模型
:有时候尝试提升模型的准确度很难 集成算法 袋装(Bagging)算法 :训练集分成多个子集,各个子集训练多个模型 袋装决策树 :组合投票的方式获得最优解 不同医生 出现次数最多的药方 可能最有效 袋装决策树 Bagged Decision Tree –适于有很大方差时-BaggingClassifier 随机森林 Random Frost RandomforestClassfi...原创 2020-01-11 21:55:55 · 169 阅读 · 0 评论 -
ML_末_实践问题简记
正态化-scaler 许多学习算法中目标函数的基础都是假设所有的特征都是零均值并且具有同一阶数上的方差。如果某个特征的方差比其他特征大几个数量级,那么它就会在学习算法中占据主导位置, 正态化好处—提高收敛速度 pipelines 之所以引入管道机制pipeline 是因为参数集要重复使用,比如不同的算法比较的 重复过程。------把重复的东西流水化嘛 引入pipelines–两部分 tra...原创 2020-01-14 21:31:58 · 93 阅读 · 0 评论 -
GridSearchCV
需要人工选择的参数 成为 超参。两个途径选择 1:凭经验微调 2:选择大小不同的参数 带入模型中 挑选最好的参数 - 网格搜索gridSearchCV 拆为两部分 网格搜索 交叉验证 --找到精度最高的参数。因为遍历所有组合 所以数据大的时候 很耗时。–穷举法 适用于 三个 四个以下的超参数。 ...原创 2020-02-26 10:56:07 · 178 阅读 · 0 评论 -
ML-4选择模型
评估算法 增大数据量 评估数据集 分离训练集和评估集–2:1 大量数据 数据比较平均 test_size=0.33 **K折交叉验证分离 ** 3,5,10 分成K组,某一个做模型,其余K-1组做验证;再取准确率的平均数–衡量分类器的性能指标。 弃一交叉验证分离 N个样本 然后N-1个训练 大似K折法 重复随机分离评估数据集与训练数据集 ...原创 2020-01-11 19:45:26 · 174 阅读 · 0 评论 -
ML_3_数据准备
使用正确的特征来构建正确的模型,以完成既定的任务。 数据预处理方法 调整数据尺度 sklearn—MixMaxScaler transformer= MinMaxScaler (feature range=(0 , 1)) newX = transformer.fit_transform(X) set_printtions(precision=3) 正态化数据- StandardSca...原创 2020-01-10 19:03:38 · 139 阅读 · 0 评论 -
ML_python:了解数据
查看 了解数据的方法 数据维度 -print(data.shape) 查看头数据 peek=data.head(10) 查看属性与类型 print(data.dtypes) 描述性分析 print(data.describe()) 数据分类 print(data.groupby(‘class’).size()) 数据相关性 -print(data.corr(method=‘...原创 2020-01-09 12:41:45 · 225 阅读 · 2 评论