- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 【机器学习算法】K均值(K-means)
非监督算法是机器学习研究的一大领域,它适用于不带标签的样本数据,采取一定的算法,将样本分成自动分类成不同的簇。K均值(K-meas) K均值算法接收两个输入,一个是K,表示簇的数量,另一个是不带标签的训练集{x1,x2,..xmx_1,x2,..x_mx1,x2,..xm}。 算法过程如下:随机初始化K个聚类中心μ1,μ2,...μK\mu_1,\mu_2,...\mu_Kμ...
2018-12-31 15:20:09 657
原创 【机器学习算法】支持向量机SVM
线性可分 在二维平面中,正样本和负样本可以由一条直线完全隔开。假设存在直线y=ω1x+by=\omega_1 x+by=ω1x+b使得平面上ω1x+b≥0\omega_1 x+b\ge 0ω1x+b≥0处完全是正样本,ω1x+b<0\omega_1 x+b<0ω1x+b&
2018-12-31 13:35:17 396
原创 【机器学习】模型评估(precision、recall、f1,ROC)
偏斜类正类和负类的比例失衡,比如存在99%的正类和1%的负类,当算法的输出恒为1时,此时的错误率也只有1%,在这种情况下,并不能够很好地估计模型的泛化能力。定义TP(True Positive),表示模型预测为正样本,实际上为正样本。FP(False Positive),表示模型预测为正样本,实际上为负样本。FN(False Negative),表示模型预测为负样本,实际上为正样本T...
2018-12-27 10:28:58 2894
原创 【机器学习】如何改进机器学习的性能?
当我们的模型出现了过拟合,或者欠拟合的情况,如何处理?验证模型由于在训练样本中得到的训练误差,是不能够用来作为实际的泛化误差的,因此我们分割样本为训练集和测试集,在训练集上训练模型,在测试集上计算测试误差。在模型选择的过程中,我们通过比较不同模型的测试误差,选出一个测试误差最低的模型。然而这样也不能够公平地说明我们的模型推广到一般情况下的效果,因为我们选择了一个能够最好地拟合测试集的模型,...
2018-12-26 11:14:49 392
原创 【机器学习算法】BP神经网络
神经元模型输入x1,x2,x3,输出结果hθ(x)=11+e−θTxh_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}hθ(x)=1+e−θTx1激活函数对于非线性函数g(z)的一个学术称呼。如之前学习过的h(x)=11+e−xh(x)=\frac{1}{1+e^{-x}}h(x)=1+e−x1就是一个激活函数,也叫做Sigmoid函数。输入层,隐藏层,输出...
2018-12-25 13:35:04 693
原创 【机器学习】欠拟合,过拟合的常见处理方法
过拟合(over-fitting)在算法对模型参数的学习过程中,如果模型过于强大,比如说,样本空间分布在一条直线的附近,那么我们的模型最好是一条直线,hθ(x)=θ0+θ1x1h_\theta(x)=\theta_0+\theta_1x_1hθ(x)=θ0+θ1x1。但我们并不知道数据的情况,可能我们的函数是这样的:hθ(x)=θ0+θ1x1+θ2x22+θ3x33h_\theta(x)...
2018-12-22 12:05:36 1262
原创 【机器学习算法推导】逻辑回归
逻辑回归(logistic regression)是分类算法的一种,通过形成决策边界,达到对数据进行分类的效果。算法思想逻辑回归中,以二分类为例,最终预测得到的是一个分类,也就是0或者1。若目标函数hθ=θ0+θ1x1+θ2x2+...+θnxnh_θ=θ_0+θ_1x_1+θ_2x_2+...+θ_nx_nhθ=θ0+θ1x1+θ2x2+...+θnxn,最终得到的值,往...
2018-12-21 15:14:24 297
原创 【机器学习算法推导】线性回归,L1L2正则
线性回归,主要用于从数据中拟合出一条直线(或更高维的平面),这条直线能够很好地体现数据的特征,比如,它能够使得平面上的点都均匀地分布在这条直线上。算法思想在简单线性回归中,我们的数据集拥有一定的参数和相应的输出,另x(i)x^{(i)}x(i)表示第i个数据的参数,y(i)y^{(i)}y(i)表示第i个数据的输出,令目标函数Hθ(x(i))=θ0+θ1x1+θ2x2+...+θnxnH_...
2018-12-19 21:48:09 475
使用scrapy框架爬取拉勾网数据
2017-09-02
基于SSH框架的简易博客系统
2017-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人