机器学习
文章平均质量分 83
LHboboo
这个作者很懒,什么都没留下…
展开
-
优化TextRank文本摘要,自定义关键词增加句子的权重
关于textRank的原理,我这边就不多介绍了,搜一下很多,我也不确定自己是否讲的有那些大佬清楚,我们主要关注在优化点痛点:最近在做文章的摘要项目,一天的摘要量估计在300万篇左右,所以直接放弃了seq2seq的生成时摘要方法,主要还是使用深度学习,速度和精度都达不到要求了。采用textrank是一种解决办法1. 目前使用FastTextRank, 速度上基本达到了要求,github链接:https://github.com/ArtistScript/FastTextRank2. 但是我原创 2021-05-08 18:03:40 · 1420 阅读 · 0 评论 -
ubuntu 教你如何10分钟搭建深度学习环境
曾经有没有被搭建环境搞得晕头转向?装了无数次什么乱七八糟的死机?各种界面显示不对?一堆的命令要敲?什么进入F1模式啊,什么下载什么乱七八糟的文件啊,nvidia,cudnn,cuda..... 其实基本不需要, 你要下载的就一样,Anaconda。往下看就知道了, 首先搞明白驱动driver和cudnn,cuda的区别和关系。1.驱动和显卡有关系,要根据自己的显卡找到适合自己版本的驱动最重...原创 2019-11-26 11:15:20 · 700 阅读 · 0 评论 -
FutureWarning: Passing (type, 1) or '1type' as a synonym of type is deprecated; in a future version
安装tensorflowGPU版本的时候,如果遇到下面的错误/home/lhb/venvs/tf114_python3/venv/lib/python3.6/site-packages/tensorflow/python/framework/dtypes.py:516: FutureWarning: Passing (type, 1) or '1type' as a synonym of ty...原创 2019-08-02 22:24:54 · 1155 阅读 · 0 评论 -
6.0 —随机森林原理(RF)和集成学习(Bagging和Pasting)
我们这边先介绍集成学习什么是集成学习我们已经学习了很多机器学习的算法。比如KNN,SVM.逻辑回归,线性回归,贝叶斯,神经网络等等,而我们的集成学习就是针对某一个问题,我们使用多个我们已经学过的算法,每个算法都会得出一个结果。然后采用投票的方法,少数服从多数,得出最终结果。这就是voting classifier我们看下代码:我们手写的集成学习方法,和scikit-learn ...原创 2019-07-20 15:49:45 · 597 阅读 · 0 评论 -
6.0——决策树原理DecisionTree(信息熵,基尼系数),决策树解决回归问题,决策树局限性
什么是决策树:决策树以二叉树为原型,是一个非参数学习模型,可以解决多分类,也可以解决回归问题,对数据有很好的解释性。像我们的KNN的缺点就是没有很好的解释性像这样的决策树,我们想到,我们对我们的样本数据,是在哪个维度进行划分的呢?还有在某个维度的哪个值上进行划分的呢?这里就需要用到我们的信息熵和基尼系数了。我们先来看我们的信息熵:看下熵的解释:熵在信息论中表示随机变量不确定...原创 2019-07-20 13:39:10 · 2091 阅读 · 0 评论 -
5.0-机器学习——SVM支撑向量机原理之线性可分数据
SVM(support vector machine)支撑向量机:什么叫支撑向量机?我们先来看一个对于我们一个2维特征平面如果我们使用逻辑回归的思想,求解出一条决策边界,将样本数据分为两类。在图中我们可以看到,对于图中这样的数据,蓝色两条线的分类对于样本数据来说都是OK的。我们取上面的这条决策边界。然后在添加一个点:新加的这个蓝色点,如果我们决策边界去蓝色线,那么这个新加蓝...原创 2019-07-19 14:14:18 · 550 阅读 · 0 评论 -
5.1-机器学习——SVM支撑向量机原理之(核函数,RBF,SVM解决回归问题)
我们在了解核函数前,我们先将线性向量机公式变形具体的过程可以自行查阅下资料,我们这里还是主要以介绍核函数为主变形之后的式子:看我们红色方框框出来的,因为这个式子是由一个线性的svm变形过来的,如果我们想对这个式子添加多项式的话。我们以前的思路将我们红框进行变形:现在,我们希望能设计出一个函数,可以直接计算出我们的,而不用先将X(i),X(j)变形,然后再做点乘即:代...原创 2019-07-19 14:13:55 · 2191 阅读 · 0 评论 -
第四篇 2.2-线性回归中使用梯度下降法及原理
本文为学习记录,写的不好请大家指正见谅,互相学习,也为自己巩固学习成果包括后续复习所用!梯度下降法介绍:1.batch gradient descent(批量梯度下降法)在一个二维平面上,和线性回归图像不同,线性回归图像是用特征作为坐标轴,而绘制梯度下降图像的时候,我们将损失函数J作为我们的纵坐标,参数theta作为我们的横坐标,图像如下:在图中我们可以看到,在蓝点中,dJ/d...原创 2019-07-12 10:59:25 · 365 阅读 · 0 评论 -
机器学习之如何评价分类算法(混淆矩阵(confusion Matrix),精准率,召回率,F1 score,PR曲线,ROC曲线,评价多分类算法)
我们一般在sklearn中使用score值来看我们的预测结果,也就是我们的分类准确度使用准确度这个指标在通常情况下是可以的,但是对我们的一些极度偏斜的数据,却会产生问题:比如说 我们有一个癌症预测系统,预测准确度达到了99.9%,如果我们只是用score来看,这个系统算是非常好的系统了但是考虑到,如果是我们的癌症率只有0.1%呢?我们只要不管是否得癌症,我就让这个系统预测没有得癌症,最...原创 2019-07-18 16:45:02 · 1447 阅读 · 1 评论 -
3.0-逻辑回归原理和学习(LR)LogisticRegression(决策边界,多项式逻辑回归,逻辑回归解决多分类问题)
逻辑回归:即可以看做回归算法,也可以看做分类算法。一般当做分类算法来用,解决二分类问题,如果要解决多分类问题,需要自己改进。看下逻辑回归的问题点,对于逻辑回归来说,解决二分类问题。我们需要加入一个sigmoid函数求出我们的概率P,然后将结果分类为1和0两类对于我们的逻辑回归来说,我们也采用梯度下降法的进行模型的构建。所以我们还是需要对我们的损失函数J进行求导操作下面附上推导...原创 2019-07-18 13:50:20 · 1529 阅读 · 0 评论 -
第三篇 2.1-线性回归原理,推导,衡量线性回归的指标(MSE,RMSE,MAE,R^2)
本文为学习记录,写的不好请大家指正见谅,互相学习,也为自己巩固学习成果包括后续复习所用!1.简单的线性回归我们先来看图线性回归就是找到一条直线,y=ax+b加入特征值为x,即预测值为y’,实际值为y,线性回归就是找到|y-y'|的最小值,即(y-y')^2的最小值,扩展到所有样本就是找到∑(y-y')^2的最小值也就是找到a和b的值,使得上述算式最小,即对a,b求导...原创 2019-07-11 15:46:33 · 1482 阅读 · 0 评论 -
第二篇:1.2 ——KNN中数据归一化原理,附数学推导
本文为学习记录,写的不好请大家指正见谅,互相学习,也为自己巩固学习成果包括后续复习所用!1.为什么要用数据归一化样本间的数据由于其中的某几个特征跨度较大,比如下图所示,样本的数据被时间所引导。两个时间之间的跨度较大,肿瘤大小数据相差不大,所以我们考虑距离远近的时候,时间特征对数据的影响就很大,如果我们对时间进行转换,转换成年,我们发现。肿瘤大小对数据的影响就大于时间对数据的影响...原创 2019-07-11 14:14:18 · 899 阅读 · 0 评论 -
2.6-模型正则化(Regularization)-限制参数的大小
过拟合是由于对训练模型的过度拟合导致的模型的泛化能力降低,在多项式回归中,我们的degree过大就会导致过拟合模型正则化能很好地解决帮助我们限制参数的大小,从而使我们的模型大大降低过拟合的风险。在线性回归中,我们尽可能让MSE达到最小。如下图加入模型正则化之后,我们的目标函数J就变成了:加入的MSE后面的公式就是我们添加的正则项。在上面公式中,我们让整个公式尽可能...原创 2019-07-15 16:06:25 · 2440 阅读 · 0 评论 -
解决过拟合的方法,列个标题
过拟合overfitting产生的高方差,有以下的解决思路:1.模型的正则化2.数据降噪,降维3.使用数据验证集(交叉验证)4.增加样本数量5.降低模型的复杂度...原创 2019-07-15 15:03:35 · 87 阅读 · 0 评论 -
第一篇:1.1-KNN的学习记录—K近邻算法原理和超参数(KNeighborsClassifier)
本文为学习记录,写的不好请大家指正见谅,互相学习,也为自己巩固学习成果包括后续复习所用!1.K近邻算法原理 这个是网上找的图,自己就不制作图了,找了一张只有两个特征的图,简单明了如图所示,横纵坐标分别表示时间和肿瘤大小两个特征值,绿色点为我们需要作出预测分类的值,当我们的k为3的时候(k为超参数,后面会提到),即表示,根据绿色点,找出3个离绿色点最近距离的三个点,如图...原创 2019-07-11 11:41:19 · 2054 阅读 · 5 评论 -
第五篇 2.3PCA和梯度上升法
本文为学习记录,写的不好请大家指正见谅,互相学习,也为自己巩固学习成果包括后续复习所用!首先来看下什么是 PCA(主成分分析法):我们通过一个2个特征的图来理解下,由图中的文字说明我们可以得知:我们的目的是找到一个轴,让样本点空间的所有点映射到这个轴之后,方差最大。在求最大方差前,我们需要做一步操作,让我们所有样本特征的平均值归0,称为demean操作方差最大:能最大程度...原创 2019-07-15 10:20:26 · 169 阅读 · 0 评论