机器学习
文章平均质量分 95
jingshuiliushen_zj
这个作者很懒,什么都没留下…
展开
-
word2vec Parameter Learning Explained 论文学习笔记
文章内容1、word2vec模型:skipgram和CBOW2、训练优化:hierarchical softmax 和 negative sampling.一、CBOW模型CBOW完成的事情是:用给定上下文预测中心词,假设输入的上下文只有一个单词,用这个单词预测接下来的词语,类似于Bigram.输入:单词的one-hot编码。维度是词典大小,输入层和隐藏层之间是全连接。 输出是单词表中...原创 2020-03-27 11:59:49 · 381 阅读 · 1 评论 -
处理数据不平衡的问题
普通的机器学习方法,对于非平衡数据分类,总是倾向于最大化占比多的类别的分类准确率,而把占比少的类别分类错误,但是,现实应用中,我们研究的问题,对于少数的类别却更加感兴趣。所以总结一下,处理不平衡数据的方法。(假设占比多的正样本,占比少的为负样本)1、过采样增加少类别的样本,代表算法是SMOTE算法,基本思想是对每一个负样本利用KNN找到K个近邻,在这k个近邻中根据采样倍率随机有放回的选取样本...原创 2018-11-05 17:42:03 · 382 阅读 · 0 评论 -
cs231n笔记2:损失函数和正则化
损失函数衡量的是对结果的不满意程度,是全部的训练样本的预测值与真实值的差值的和:L=1N∑iLi(f(xi,W),yi)L=\frac{1}{N}\sum_iL_i(f(x_i,W),y_i)L=N1∑iLi(f(xi,W),yi),我们训练的过程也是通过更新权重w,努力减小损失函数的过程。损失函数的具体形式多种多样,下面介绍常用的多分类支持向量机(SVM)损失函数。一、多分类支持向量...原创 2018-11-05 14:52:25 · 708 阅读 · 0 评论 -
cs231n笔记1:图像分类
几个术语初步了解下:图像分割、面部检测(Adaboost)、object recognization、SIFT(SIFT算法是一种提取局部特征的算法,在尺度空间寻找极值点,提取位置,尺度,旋转不变量 )、语义分割(将像素按照图像中表达语义含义的不同进行分组)图像分类是计算机视觉领域的核心问题之一,并且有着各种各样的实际应用。其实在计算机视觉领域中很多看似不同的问题(比如物体检测和分割),都可以被...原创 2018-11-02 11:57:37 · 401 阅读 · 0 评论 -
为什么要对数据进行归一化?
为什么要归一化1、提高梯度下降法求解最优解的速度如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,X1区间是[0,2000],X2区间是[1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;而右图对两个原始特征进行了归一化,其对应的等高线显得很圆,在梯度下降进行求...转载 2018-11-09 11:31:00 · 2487 阅读 · 0 评论 -
KMeans聚类 K值的确定以及初始类簇中心点的选取
KMeans算法是最常用的聚类算法,基本思想是:在给定K值和K个初始类簇中心点的情况下,把每个样本点分到离其最近的簇中,然后重新计算每个簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类簇中心点的变化很小,或者达到指定的迭代次数。KMeans算法本身思想比较简单,但是确定一个合适的K值和K个初始类簇中心点对于聚类效果的好坏有很大的影响。K值的确定1、样本聚类误差平方...原创 2018-11-06 11:03:31 · 32205 阅读 · 6 评论 -
cs231n作业1:图像分类
作业是在ipython下开发完成的,首先要学会使用ipython。一、IPython使用Jupyter Notebook是以web交互式的编程接口,是一个编程工具,除了通常的新建、删除、更改、下载编程文件外,还支持在线编程运算可帮助持续开发,特别在企业中有些项目需要持续很长时间的开发,每天下班后关闭jupyter,只要服务器的kernel不关闭,jupyter会保存好开发时的数据缓存和可视化结...原创 2018-11-03 15:51:54 · 494 阅读 · 0 评论 -
O2O优惠券使用预测
(11429826, 7)参考:赛题:https://tianchi.aliyun.com/getStart/information.htm?spm=5176.100067.5678.2.594e1db7rxv16q&raceId=231593https://github.com/InsaneLife/O2O-Predict-Coupon-Usage冠军代码:https://git...原创 2018-10-25 16:37:53 · 7023 阅读 · 7 评论 -
boosting系列算法
boosting是一种集成学习算法,由一系列基本分类器按照不同的权重组合成为一个强分类器,这些基本分类器之间有依赖关系。包括Adaboost算法、提升树、GBDT算法。一、Adaboost算法1、基本思想通过两个问题:1)如何更新样本权重D? 提高被弱分类器错分样本的权值,降低正分样本的权值,作为下一轮基本分类器的训练样本。2)如何将弱分类器组合成强分类器? 加权多数表决,误差率小的分...原创 2018-10-25 16:02:50 · 25464 阅读 · 0 评论 -
TF-IDF原理及sklearn调用
一、原理TF-IDF,也就是“词频-逆文本频率”,是文本挖掘中做分词、向量化之后的一个操作,它由两部分组成:1、词频:某个词在当前文本中出现的次数。2、IDF:有些词语虽然词频很高,但是并不重要,IDF衡量的就是一个词的重要度。IDF的基本公式:IDF(x)=logNN(x)IDF(x) = log\frac{N}{N(x)}IDF(x)=logN(x)N其中,N代表训练集中docum...原创 2018-10-18 22:07:16 · 576 阅读 · 0 评论 -
朴素贝叶斯原理及sklearn调用
与其他大多数的分类算法不同,如:决策树、KNN、逻辑回归等,它们都是判别方法,直接学习出类别y和特征x之间的关系。朴素贝叶斯属于生成方法,它的理论基础是贝叶斯公式:P(Y∣X′)=P(X′∣Y)P(Y)P(X)P(Y|X')=\frac {P(X'|Y)P(Y)}{P(X)}P(Y∣X′)=P(X)P(X′∣Y)P(Y),其中P(Y)是先验知识,P(X’|Y)...原创 2018-10-18 20:40:14 · 2327 阅读 · 0 评论 -
神经网络
1、从逻辑回归到神经网络https://blog.csdn.net/thystar/article/details/51582983原创 2018-10-13 19:49:22 · 291 阅读 · 0 评论 -
特征工程总结
待补充…框架图如下:原创 2018-09-21 18:00:03 · 216 阅读 · 0 评论 -
问题建模之交叉验证
在离线环节,需要对模型进行评估,根据评估指标选择最佳模型。这就需要交叉验证。下面介绍几种常用的交叉验证方法。一、留出法留出法非常简单,就是将数据集划分为训练集合测试集,它甚至不能看做是一种交叉验证,因为它并没有交叉的操作。这种方法的缺点是:1、划分测试集数据量对结论有影响。测试集数据量小,模型可信度不高;训练集数据量小,模型效果可能不够好。通常的做法是,2 /3 数据作为训练集,1 /3...原创 2018-10-11 20:21:10 · 1025 阅读 · 0 评论 -
问题建模之样本选择
为什么要进行样本选择呢?1、若样本集较大,在训练模型时带来资源和时间的巨大消耗。2、样本集中可能会有一些噪声点和异常点,影响模型效果。3、样本集中可能会有冗余数据或不相关的数据,对我们的模型训练没有提升。下面介绍一下样本选择的几种方法。一、数据去噪噪声的存在具有两面性,一方面,噪声的存在会导致数据质量变低 ,影响模型的效果,但通过在训练集中引人噪声数据也能起到提升模型健壮性的作用 。因...原创 2018-10-11 19:52:44 · 3773 阅读 · 0 评论 -
问题建模之评估指标
从今天开始学习美团机器学习实践这本书,加一些自己的理解,加油!!!机器学习解决问题的通用流程:问题建模--->数据清洗和预处理-->特征提取--->模型选择-->模型融合问题建模:解决一个机器学习问题,首先要分析问题,将问题转化为机器学习能解决的问题,这个过程要明确业务指标和模型预测原创 2018-10-11 16:44:47 · 3629 阅读 · 0 评论 -
搜索评价指标——NDCG
概念 NDCG,Normalized Discounted cumulative gain 直接翻译为归一化折损累计增益,可能有些晦涩,没关系下面重点来解释一下这个评价指标。这个指标通常是用来衡量和评价搜索结果算法(注意这里维基百科中提到了还有推荐算法,但是我个人觉得不太适合推荐算法,后面我会给我出我的解释)。DCG的两个思想: 1、高关联度的结果比一般关联度的结果更影...转载 2018-10-11 16:07:24 · 5108 阅读 · 2 评论