黄永昌
Happy丶lazy
这个作者很懒,什么都没留下…
展开
-
读《scikiit-learn机器学习》黄永昌第二章
第二章python机器学习软件包机器学习任务的一般步骤有那些1:评估模型对象2:模型接口3:模型检验4:模型选择扩展学习资源http://scipy-lectures.org 科学计算工具包的集合蒙特卡罗方法求圆周率n_dots = 1000000x = np.random.random...原创 2019-05-08 21:53:22 · 180 阅读 · 0 评论 -
乳腺癌支持向量机
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as np# 载入数据from sklearn.datasets import load_breast_cancercancer = load_breast_cancer()X = cancer.datay = cancer.targetprint('da...原创 2019-05-22 14:43:02 · 1298 阅读 · 0 评论 -
读《scikiit-learn机器学习》支持向量机
支持向量机的最大特点能构造出最大间距的决策边界,从而提高分类算法的鲁棒性在支持向量机里,为什么吧类别标识定义为[-1,1]为了让数学表达式尽量简洁,通过符号判断什么是松弛系数,它有什么用类似与逻辑回归算法成本函数引入正则项,目的是为了纠正过拟合问题,让支持向量机对噪声数据更强的适应性。什么是核函数,他们和相似性函数,两者有什么关系核函数:特征转换函数,相似性函数:由于只...原创 2019-05-22 14:39:00 · 199 阅读 · 0 评论 -
决策树_预测泰坦尼可号幸存者
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport pandas as pddef read_dataset(fname): # 指定第一列作为行索引 data = pd.read_csv(fname, index_col=0) # 丢弃无用的数据 data....原创 2019-05-22 14:36:17 · 353 阅读 · 0 评论 -
读《scikiit-learn机器学习》第七章_决策树
什么是信息熵,其计算公式是什么一条信息的信息量和它的不确定性有直接关系,一个问题不确定性越大,要搞清这个问题,需要了解的信息量就越多,其信息熵就越大什么是信息增益?信息熵变换幅度在决策树创建过程中,用什么方法来选择特征,从而经行数据划分选择信息增益最大得特征,并用这个特征作为数据集划分节点来划分数据决策树如何处理连续值得特征需要经行离散化处理,要离散化成几个类除了信...原创 2019-05-22 14:32:10 · 206 阅读 · 0 评论 -
乳腺癌检测_逻辑回归
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as np# 载入数据from sklearn.datasets import load_breast_cancercancer = load_breast_cancer()X = cancer.datay = cancer.targetprint('dat...原创 2019-05-22 14:29:45 · 665 阅读 · 0 评论 -
线性回归_测算房价
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets import load_bostonboston = load_boston()X = boston.datay = boston.targetX.shape(506, 13)X[0]arra...原创 2019-05-22 14:17:27 · 281 阅读 · 0 评论 -
读《scikiit-learn机器学习》黄永昌第五章
线性回归算法线性回归模型是用来解决什么问题的使用线性方程对数据集进行拟合的算法,通过属性的线性组合进行预测2.线性回归模型的预测函数是什么样的?其矩阵形式的写法是什么样的?h(x)=a+bxh(x)=[a b]*[1 x]T3.线性回归模型的成本函数是什么样的?J(θ)=1/(...原创 2019-05-22 14:13:41 · 300 阅读 · 0 评论 -
糖尿病预测
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport pandas as pd# 加载数据data = pd.read_csv('datasets/pima-indians-diabetes/diabetes.csv')print('dataset shape {}'.format(data...原创 2019-05-20 22:06:04 · 948 阅读 · 0 评论 -
k-近邻算法进行回归拟合
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as np# 生成训练样本n_dots = 40X = 5 * np.random.rand(n_dots, 1)y = np.cos(X).ravel()# 添加一些噪声y += 0.2 * np.random.rand(n_dots) - 0.1# ...原创 2019-05-20 21:49:39 · 1816 阅读 · 0 评论 -
使用k-近邻算法进行分类
%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets.samples_generator import make_blobs# 生成数据centers = [[-2, 2], [2, 2], [0, 4]]X, y = make_blobs(n_samples=...原创 2019-05-20 21:41:01 · 815 阅读 · 0 评论 -
读《scikiit-learn机器学习》黄永昌第四章
第4章_k-近邻算法请用一句话描述k-近邻算法的原理未标记样本的类别,由距离其最近的k个邻居投票来决定k-近邻算法有那些变种1:增加邻居的权重,越紧权重越高 2:使用一定半径内的点取代最近的k个点,主要数据采集样本不均匀时,效果较好使用不同的算法参数k,观察针对同一个数据,拟合曲线有什么变化k偏小...原创 2019-05-20 21:34:59 · 227 阅读 · 0 评论 -
读《scikiit-learn机器学习》黄永昌第三章
第三章_机器学习理论基础什么是过拟合,什么是欠拟合?怎么去诊断算法是否过拟合或欠拟合过拟合是指模型能很好地拟合训练样本,但对新数据的预测准确性很差,欠拟合是指模不能很好地拟合训练样本,且对新数据的预测准确性也不好分别用一阶多项式,三阶多项式,十阶多项式,来拟合这个数据集%matplotlib inlineimport matp...原创 2019-05-20 21:19:53 · 455 阅读 · 0 评论