机器学习相关
文章平均质量分 69
蓁蓁尔
A goal is a dream with a deadline.
展开
-
机器学习实战之KNN(交友网站网友预测)
一、数据集:datingTestData.txt,格式如下: 前三个为特征,分别是: (1)每年获得的飞行常客里程数 (2)玩视频游戏所耗的时间百分比 (3)每周消费的冰淇淋公升数 标签:不喜欢、魅力一般、极具魅力。 二、使用python处理文本文件,转为矩阵形式。def file2matrix(filename): fr = open(filename) numbe原创 2016-06-30 21:46:51 · 1124 阅读 · 0 评论 -
《统计学习方法》学习笔记(2)--模型选择、泛化能力
1.泛化能力用来表征学习模型对于未知数据的预测能力。 为了避免过拟合,且使误差最小,模型选择的常用方法有:正则化和交叉验证。正则化是结构风险最小化策略的实现=经验风险最小化+正则化项/罚项 交叉验证 简单交叉验证,将数据70%作为训练集,30%作为测试集,然后选出测试误差最小的模型S-fold交叉验证,将数据随机分成S份,将S-1份作为训练集,剩下的作为测试集,对于训练集和测试集有S种选择,原创 2017-04-24 10:36:55 · 1640 阅读 · 0 评论 -
《统计学习方法》学习笔记(1)--统计学习三要素
统计学习方法 = 模型、策略、算法。 统计学习方法之间的不同,主要来自于其模型、策略、算法的不同。确定了模型、策略和算法,统计学习方法也就确定了。 Note: 以下以监督学习为基础来进行论述。非监督学习和强化学习同样也拥有这三要素。模型 在监督学习当中,我们的目的是学习一个由输入到输出的映射,这个映射就是模型。一般来说,模型有两种形式,一种是概率模型(由条件概率分布表示的模型),另一种形式是原创 2016-07-25 11:20:22 · 2279 阅读 · 0 评论 -
《统计学习方法》学习笔记(3)--感知机
补点小常识:1958年,(李航老师《统计学习方法中》说到的是1957年)计算科学家Rosenblatt提出了由两层神经元组成的神经网络–“感知器”(Perceptron)–单层神经网络。感知器是当时首个可以学习的ANN。Rosenblatt现场演示了其学习识别简单图像的过程,在当时的社会引起了轰动。人们认为已经发现了智能的奥秘,许多学者和科研机构纷纷投入到神经网络的研究中。美国军方大力资助并认为神经原创 2017-04-24 10:49:52 · 739 阅读 · 0 评论 -
《统计学习方法》学习笔记(3.1)---对偶问题
知乎答案:https://www.zhihu.com/question/26526858#answer-10137064每一个线性规划问题,我们称之为原始问题,都有一个与之对应的线性规划问题我们称之为对偶问题。原始问题与对偶问题的解是对应的,得出一个问题的解,另一个问题的解也就得到了。并且原始问题与对偶问题在形式上存在很简单的对应关系: 目标函数对原始问题是极大化,对对偶问题则是极小化 原始问题原创 2016-07-20 09:17:36 · 1222 阅读 · 0 评论 -
《统计学习方法》学习笔记(4)--k近邻法及常用的距离(or 相似度)度量
一、k近邻法基础知识 1. 特征空间中两个实例点的距离反应了两个实例点的相似程度。 2. k近邻模型三要素 = 距离度量(有不同的距离度量所确定的最邻近点不同)+k值的选择(应用中,k值一般取一个比较小的值,通常采用交叉验证法来确定最优k值)+分类决策规则(往往是多数表决规则(majority voting rule),此规则等价于经验风险最小化) 3. 在训练数据量太大原创 2016-07-20 11:20:20 · 5762 阅读 · 0 评论 -
《统计学习方法》学习笔记(5)-- 朴素贝叶斯法
贝叶斯法 分类原创 2017-04-25 11:27:08 · 410 阅读 · 0 评论 -
《统计学习方法》学习笔记(6)-- 决策树-附代码(sklearn)
决策树,特征选择的三个准则:信息增益(ID3),信息增益比(C4.5),基尼系数(CART)。决策树的生成,决策树的剪枝。原创 2017-04-25 17:09:38 · 1001 阅读 · 0 评论 -
时间序列分析--ARIMA模型
http://blog.csdn.net/u010414589/article/details/49622625 指数平滑法对时间序列上连续的值之间的相关性没有要求。但是,如果你想使用指数平滑法计算出预测区间, 那么预测误差必须是不相关的, 且必须是服从零均值、 方差不变的正态分布。即使指数平滑法对时间序列连续数值之间相关性没有要求,在某种情况下, 我们可以通过考虑数据之间的相关性来创建更好的预测原创 2016-10-15 14:08:57 · 76548 阅读 · 1 评论 -
异构信息网络+推荐===总结
关于异构信息网络的基本概念,可以先看看:异构信息网络–基本概念和定义学习笔记**一、元路径(Meta Path)** - 因为异构信息网络(以后简称为HIN)中包含着更多的节点类型和边的类型,相对于同构网络来说比较复杂,所以Yizhou Sun【1】第一次提出了元路径(meta path)的概念,基于元路径来分析HIN,简单来说元路径就是连接两个节点之间的边类型和节点类型...原创 2017-06-22 18:52:28 · 15348 阅读 · 4 评论 -
网络表示学习相关资料
收藏夹有一点爆炸,所以在这边开一个帖子直接扔这吧,下面的资料常看,温故知新。网络表示学习(network representation learning,NRL),也被称为图嵌入方法(graph embedding method,GEM)是这两年兴起的工作,目前很热,许多直接研究网络表示学习的工作和同时优化网络表示+下游任务的工作正在进行中。1.清华大学计算机系原创 2017-07-08 22:59:33 · 3844 阅读 · 0 评论 -
网络表示学习(DeepWalk,LINE,node2vec,SDNE)
1.传统:基于图的表示(又称为基于符号的表示)如左图G =(V,E),用不同的符号命名不同的节点,用二维数组(邻接矩阵)的存储结构表示两节点间是否存在连边,存在为1,否则为0。 缺点:长尾分布下大部分节点间没有关系,所以邻接矩阵非常稀疏,不利于存储计算。2. 网络表示学习(Network Representation Learning,NRL),也称原创 2017-07-24 12:49:01 · 54872 阅读 · 1 评论 -
深度学习+推荐--近期论文总结
一。推荐任务分三类:评分预测类任务(近几年热度:2), 排序预测类任务(top N 推荐,近几年热度:3) 分类任务(热度:1)。推荐系统算法方面分三类:协同过滤(CF), 基于内容的推荐(CB) 混合推荐。二。目前的推荐算法中用到的8类深度学习模型:MLP(理论上可以拟合各种函数,可以非常容易的model用户和项目间的非线性关系),AE及其变体(非监督,超强的特征学习能力),原创 2017-08-01 21:22:14 · 2791 阅读 · 0 评论 -
推荐系统经典论文文献及业界应用
推荐系统经典论文文献及业界应用列了一些之前设计开发百度关键词搜索推荐引擎时, 参考过的论文, 书籍, 以及调研过的推荐系统相关的工具;同时给出参加过及未参加过的业界推荐引擎应用交流资料(有我网盘的链接), 材料组织方式参考了厂里部分同学的整理。因为推荐引擎不能算是一个独立学科,它与机器学习,数据挖掘有天然不可分的关系,所以同时列了一些这方面有用的工具及书籍,希望能对大家有所帮助。Survey方面的文转载 2017-03-31 11:22:00 · 2850 阅读 · 0 评论 -
从工业角度谈推荐系统的过去、现在和未来(一)
主要综合下面三篇文章整理而成,信息量太大,所以在对应的地方也列出了一些可参考帮助理解的文章,有些地方还没看明白,会一直修改的应该。1.原文:《 Past, Present and Future of Recommender Systems: an Industry Perspective》 by Amatriain (Quora), Justin Basilico (Netflix) https:原创 2017-03-24 15:24:33 · 868 阅读 · 0 评论 -
用数据可视化直观理解数据--iris数据集为例
原文:https://www.kaggle.com/benhamner/d/uciml/iris/python-data-visualizations See Kaggle Datasets for other datasets to try visualizing. The World Food Facts data is an especially rich one for visualiza原创 2017-04-07 15:43:57 · 10872 阅读 · 1 评论 -
SimRank--基于结构的相似度度量方法学习笔记
详见:Glen Jeh 和 Jennifer Widom 的论文SimRank: A Measure of Structural-Context Similarity∗一、简介目前主要有两大类相似性度量方法: (1) 基于内容(content-based)的特定领域(domain-specific)度量方法,如匹配文本相似度,计算项集合的重叠区域等; (2) 基于链接(对象间的原创 2016-07-18 17:24:50 · 7864 阅读 · 0 评论 -
KL散度(相对熵,信息增益)学习笔记
1.定义根据查阅相关资料,知相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain)。 KL散度是两个概率分布P和Q差别的非对称性的度量。 对一个离散随机变量的两个概率分布P和Q来说,他们的KL散度定义为: 对于连续的随机原创 2016-06-28 16:11:19 · 12412 阅读 · 0 评论 -
准确率-召回率,击中率-虚警率,PR曲线和mAP,ROC曲线和AUC
转自:http://blog.csdn.net/wangzhiqing3/article/details/9058523 在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1 信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫转载 2016-10-25 15:11:31 · 4889 阅读 · 0 评论 -
时间序列分析--指数平滑法
一. 基础知识:1. 概念:时间序列是指一个数据序列,特别是之由一段时间内采集的信号组成的序列,序列前面的信号表示采集的时间较早。 2. 前提假设:时间序列分析一般假设我们获得的数据在时域上具有一定的相互依赖关系,例如股票价格在t时刻很高,那么在t+1时刻价格也会比较高(跌停才10%);如果股票价格在一段时间内获得稳定的上升,那么在接下来的一段时间内延续上升趋势的概率也会比较大。 3. 目标原创 2016-10-15 14:02:41 · 18759 阅读 · 0 评论 -
反向传播(back propagation)算法学习笔记
反向传播算法最早于上世纪70年代被提出,但是直到1986年,由David Rumelhart, Geoffrey Hinton, 和Ronald Williams联合发表了一篇著名论文(Learning representations by back-propagating errors)之后,人们才完全认识到这个算法的重要性。最最基础入门: 通过一个简单的实例理解反向传播的基本计算过程: 英原创 2016-12-28 11:15:47 · 9296 阅读 · 1 评论 -
tensorflow
已看完: TensorFlow极速入门 http://weibo.com/ttarticle/p/show?id=2309351000224074036907921465 机器学习的敲门砖:手把手教你TensorFlow初级入门 https://yq.aliyun.com/articles/64410 『深度长文』Tensorflow代码解析(一) https://mp.weixin.qq原创 2017-02-27 19:34:35 · 627 阅读 · 0 评论 -
交叉熵代价函数+方向导数+梯度(详细作用及公式推导)
交叉熵代价函数(作用及公式推导) http://blog.csdn.net/u014313009/article/details/51043064交叉熵代价函数 http://blog.csdn.net/u012162613/article/details/44239919两篇结合着看。原创 2017-03-04 10:42:12 · 4744 阅读 · 0 评论 -
中文语料库and分词
北京大学计算语言学研究所: 《人民日报》切分/标注语料库中文对白语料:可用作聊天机器人训练语料THUOCL:清华大学开放中文词库 (1) http://thuocl.thunlp.org/ (2)一篇微信文章THULAC:一个高效的中文词法分析工具包专栏 | 中文分词工具测评 http://chuansong.me/n/1205988942333原创 2017-02-25 16:45:25 · 6594 阅读 · 0 评论 -
Stanford UFLDL教程(一)--神经网络、BP算法、BP初始值设置和梯度检验
在看斯坦福大学的UFLDL(非监督特征学习和深度学习)教程时,发现了一个博客,在看教程的过程中不懂得问题,大部分在博客中得到了解答。转到自己帖子中方便以后重新查看。01.神经网络 UFLDL:http://deeplearning.stanford.edu/wiki/index.php/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C 博客:http://blog.csd原创 2017-03-08 15:20:30 · 1008 阅读 · 0 评论 -
机器学习 数据挖掘知识点总结大纲
**Basis(基础):**SSE(Sum of Squared Error, 平方误差和)SAE(Sum of Absolute Error, 绝对误差和)SRE(Sum of Relative Error, 相对误差和)MSE(Mean Squared Error, 均方误差)RMSE(Root Mean Squared Error, 均方根误差)RRSE(Root Relative转载 2017-03-06 16:09:40 · 2192 阅读 · 0 评论 -
GBDT学习总结
一、基本概念1、GBDT(Gradient Boosting Decision Tree)又叫MART(Multiple Additive Regression Tree),GBRT(Gradient Boost Regression Tree),Tree Net等,是一种迭代的决策树算法,与Adboost相比,GBDT也是用了前向分步算法,但是其规定了弱学习器只能是回归树,每棵树拟合的是之前所有树原创 2017-08-14 20:29:19 · 1280 阅读 · 0 评论