机器学习
任何事情到最后都是最好的
没有任何投机取巧的东西,一步一个脚印走下去。
展开
-
机器学习入门之读取文件处理
2、python numpy 删除行,列 dataset=[[1,2,3],[2,3,4],[4,5,6]] import numpy as np data = np.delete(dataset,1(-1;[2 3]),axis=1) #axis 表示删除是行还是列,0 表示行,1表示列;3.1 读取文件的常规方式: 将文件全部读进内存中: content = [] with open...原创 2018-04-03 15:09:43 · 694 阅读 · 0 评论 -
解决 mac OSX pip OSError: [Errno 1] Operation not permitted
Macbook 执行pip install 的时候经常爆出如下错误:Exception:Traceback (most recent call last): File "/Library/Python/2.7/site-packages/pip/basecommand.py", line 215, in main status = self.run(options, arg...原创 2018-04-10 23:01:53 · 1336 阅读 · 0 评论 -
机器学习之偏差和方差(欠拟合和过拟合)
5.1 基本概念 5.1.1 偏差和方差 期望输出与真实值的差别称之为偏差,即: bias2(x) = (fExpectedD(x) - y)2 //与真实值之间的差距 使用样本数相同的不同训练集产生的方差为: var(x) = E[(fD(x) - fExpectedD(x))2] //与预测值期望的偏离程度 评价数据拟合的状况,通常采用损失函数 J(X) 高偏差...原创 2018-04-03 18:13:19 · 581 阅读 · 0 评论 -
如何评估机器学习模型的性能
机器学习的模型性能评估,主要是确定在trainingSet中的误差,更重要的是在测试集的误差,对新模型的学习能力,也就是所谓的泛化能力。 因此数据集的确定尤为重要,将样本数据集分为trainingSet 和 testingSet,数据集的划分要注意如下两个方面: 1、尽量保证trainingSet 和 testingSet与样本真实分布一致; 2、trainingSet 和 tes...原创 2018-04-04 17:21:14 · 557 阅读 · 0 评论 -
利用GridSearchCV,自动搜索各种参数大组合
sklearn的model_selection模块提供的GridSearchCV函数,用于自动调参数,输出最优化的结果。使用范围: 小数据集。优点是省时省力。大数据考虑坐标下降。使用方法:class sklearn.model_selection.GridSearchCV(estimator,param_grid, scoring=None, fit_params=None, n_jobs=...原创 2018-04-04 22:18:48 · 2781 阅读 · 0 评论