![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 92
sina微博_SNS程飞
sina微博:SNS程飞研究方向:机器学习数据挖掘社交网络推荐系统
展开
-
【社交圈子挖掘】用边介数GN算法研究交通网络聚类性质
汽车化社会带来的诸如交通阻塞、交通事故、能源消费和环境污染等社会问题日趋恶化,交通阻塞造成的经济损失巨大。以北京为例,平均车速在20km/h以下,人均每天在道路上消耗2-3小时;低速行驶,发动机工作在不良状态下增加50%以上耗能并制造80%以上的空气污染;拥堵造成了城市道路利用率仅为20%。每年由于交通拥塞造成的损失高达130亿,占GDP的3.6%。可见解决交通问题已经刻不容缓。但是目前交通信息服转载 2013-12-30 17:34:01 · 2850 阅读 · 0 评论 -
【机器学习系列】kNN(k近邻算法)的python实现
模型代码模型文件命名为kNN.py#coding:utf-8from numpy import *import operatordef createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels=['A','A','B','B'] return group,labels原创 2014-03-17 15:49:10 · 2045 阅读 · 0 评论 -
【机器学习系列】SVD奇异值分解(python代码)
说明NumPy有一个称为linalg的线性代数工具箱。本文主要介绍如何使用该工具箱实现矩阵的SVD处理。参考《机器学习实战》P255代码#coding:utf-8from numpy import *def loadData(): return [[1,1,1,0,0], [2,2,2,0,0],原创 2014-03-17 23:25:59 · 14720 阅读 · 1 评论 -
【机器学习系列】皮尔逊相关系数
欧几里德距离欧几里得度量定义欧几里得空间中点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为但是当评价结果中,评价者的评价相对于平均水平偏离很大的时候欧几里德距离不能很好的揭示出真实的相似度.还有一种评价方法就是使用皮尔逊相关系数,它可以完成"夸大值纠偏":皮尔逊相关度系数两个变量之间的相关系数越高,从一个变量去预测转载 2014-03-17 23:38:38 · 2354 阅读 · 0 评论 -
【机器学习系列】scikit-learn中的Linear Regression Example
说明:这里为了以后方面查阅浏览,只搬运了别人的基本代码,相关细节可查看其它资料。例如:http://scikit-learn.org/0.11/auto_examples/linear_model/plot_ols.html代码:print __doc__# Code source: Jaques Grobler# License: BSDimport p原创 2014-03-27 22:43:16 · 4275 阅读 · 1 评论 -
【机器学习系列】LDA资源
(转自:http://www.cnblogs.com/youth0826/archive/2010/10/28/1863650.html)LDA和HLDA:(1)D. M. Blei, et al., "Latent Dirichlet allocation," Journal of Machine Learning Research, vol. 3, pp. 993-1022,转载 2014-03-20 15:38:58 · 1747 阅读 · 0 评论 -
【python系列】画lda主题分布折线图
说明利用python画lda训练出来的doc的主题分布的折线图。主题分布文件为GibbsLDA++中casestudy中给出的。代码#coding:utf-8import matplotlib.pyplot as pltimport random# 读取文件内容lines=open(r"D:\gibbslda\GibbsLDA++-0.2\model原创 2014-03-20 15:06:22 · 4010 阅读 · 2 评论 -
【机器学习系列】看懂信息检索和网络数据挖掘领域论文的必备知识总结
信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本书本身自成体系,所以包含太多东西,很多内容看了,但是实际上却用不到。这虽然不能说是一种浪费,但是却没有把有限力气花在刀口上。转载 2014-03-24 10:31:13 · 2216 阅读 · 0 评论 -
【机器学习系列】python版PCA(主成分分析)
简介 在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有转载 2014-04-03 14:59:09 · 3707 阅读 · 0 评论 -
【机器学习系列】logistic回归python实现
说明这只是一个还未优化的logistic回归的python实现,如果数据量比较大的时候,速度会变慢。如果需要优化,请参考 @zouxy09 的文章 http://blog.csdn.net/zouxy09/article/details/20319673,不明白logistic回归原理的也可以参考这篇文章。logistic回归最终需要求解的参数是w,即回归系数。且回归问题最终转原创 2014-03-25 16:51:30 · 2890 阅读 · 0 评论 -
【spark系列5】回归之LinearRegressionWithSGD
scala程序原创 2014-04-20 17:26:29 · 6352 阅读 · 2 评论 -
【spark系列4】分类之SVMWithSGD
参考资料:1.官网 http://spark.apache.org/docs/latest/mllib-guide.html原创 2014-04-20 17:20:06 · 7624 阅读 · 0 评论 -
【spark系列7】协同过滤之ALS
其它步骤请参考【系列4】注意单机跑的时候原创 2014-04-20 20:58:54 · 1989 阅读 · 0 评论 -
机器学习笔试面试系列算法集锦
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺转载 2013-12-24 13:18:20 · 5025 阅读 · 3 评论 -
【机器学习系列】机器学习系列资源
信息检索1. 《信息检索导论》官方网站,含教学课件等多个资源下载,网站地址:http://informationretrieval.org/附:其它资源个人会慢慢整理上来,欢迎大家提供好的资源,一起交流学习。原创 2014-12-22 22:23:39 · 2317 阅读 · 0 评论 -
【机器学习系列】libsvm中的svm-toy尝试
主要内容利用libSVM自带的简易工具来演示SVM的两类分类过程。(以下内容只是利用libSVM自带的一个简易的工具供大家更好的理解SVM,如果你对SVM已经有了一定的了解,可以直接跳过这部分内容)实验首先,你要了解的是libSVM只是众多SVM实现版本中的其中之一。而SVM是一种进行两类分类的分类器,在libSVM最新版(libSVM3.1)里面,已经自带了简单的原创 2014-03-16 22:33:24 · 4551 阅读 · 0 评论 -
【机器学习系列】libsvm的使用问题收集
【1】我用grid.py进行参数寻优时,出现如下错误: D:\libsvm-2.89\tools>grid.py german_scale [local] 5 -7 76.9 Timeout:gnuplot is not ready [local] -1 -7 70.0 Traceback : File "D:\libsvm-2.89\tools>g转载 2014-03-16 23:01:33 · 2577 阅读 · 1 评论 -
【机器学习系列】EM算法求解三硬币问题(python版本)
三硬币模型 假设有3枚硬币,分别记作A,B,C。这些硬币正面出现的概率分别为π,p和q。投币实验如下,先投A,如果A是正面,即A=1,那么选择投B;A=0,投C。最后,如果B或者C是正面,那么y=1;是反面,那么y=0;独立重复n次试验(n=10),观测结果如下: 1,1,0,1,0,0,1,0,1,1假设只能观测到投掷硬币的结果,不能观测投掷硬币的过程。问如何估计三硬币正面出现的概率,即π,p和原创 2014-02-26 18:54:47 · 5377 阅读 · 0 评论 -
机器学习&数据挖掘笔记_20(PGM练习四:图模型的精确推理)
机器学习&数据挖掘笔记_20(PGM练习四:图模型的精确推理) 转自:http://www.cnblogs.com/tornadomeet 前言: 这次实验完成的是图模型的精确推理。exact inference分为2种,求边缘概率和求MAP,分布对应sum-product和max-sum算法。这次实验涉及到的知识点很多,不仅需要熟悉图模型的represe转载 2014-01-04 17:28:50 · 4005 阅读 · 0 评论 -
数据挖掘方向牛人(Business Intelligence, KDD and Data Mining People)
Business Intelligence, KDD and Data Mining People OrganizationCountryAchim HoffmannUniversity of New South WalesAustraliaAd FeeldersUniversiteit UtrechtThe Neth转载 2014-01-05 21:06:46 · 3377 阅读 · 0 评论 -
【机器学习系列】斯坦福课程——欠拟合与过拟合概念
欠拟合与过拟合概念本次课程大纲:1、 局部加权回归:线性回归的变化版本2、 概率解释:另一种可能的对于线性回归的解释3、 Logistic回归:基于2的一个分类算法4、 感知器算法:对于3的延伸,简要讲 复习: –第i个训练样本令,以参数向量为条件,对于输入x,输出为:n为特征数量转载 2014-01-07 09:51:46 · 1793 阅读 · 0 评论 -
【机器学习系列】《Combining Labeled and Unlabeled Data with Co-Training》读书笔记
原文链接:http://repository.cmu.edu/cgi/viewcontent.cgi?article=1181&context=compscico-training的开山之作,也算是半监督学习领域的重要分支吧,3000+的引用,08年被ICML评为“十年最佳论文”。当年的两位作者现在都是CMU的教授(其实二作是一作在CMU的导师,现在还待着一大票博士),都依然活跃在机器学习转载 2014-01-07 09:57:17 · 4221 阅读 · 0 评论 -
【机器学习系列】新的面向机器学习的并行框架(GraphLab)
1.1 GraphLab简介在海量数据盛行的今天,大规模并行计算已经随处可见,尤其是MapReduce框架的出现,促进了并行计算在互联网海量数据处理中的广泛应用。而针对海量数据的机器学习对并行计算的性能、开发复杂度等提出了新的挑战。机器学习的算法具有下面两个特点:数据依赖性强,运算过程各个机器之间要进行频繁的数据交换;流处理复杂,整个处理过程需要多次迭代,数据的处理条件分支多。转载 2014-01-09 15:10:24 · 1315 阅读 · 0 评论 -
【机器学习系列】机器学习界大牛林达华推荐的书籍
Recommended BooksHere is a list of books which I have read and feel it is worth recommending to friends who are interested in computer science.Machine LearningPattern Recognition and M转载 2013-12-27 10:05:09 · 74646 阅读 · 4 评论 -
【机器学习系列】主题模型-LDA浅析
上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少转载 2014-02-25 18:57:33 · 1891 阅读 · 0 评论 -
【机器学习系列】三硬币问题——一个EM算法和Gibbs Sampling的例子
三硬币问题——一个EM算法和Gibbs Sampling的例子/*转载自:http://www.crescentmoon.info/?p=573*/讲一个EM算法和Gibbs 抽样的小例子,用于加深理解。题目:假设有3枚硬币,分别记做A,B,C。这些硬币正面出现的概率分别是π,p和q。进行如下掷硬币实验:先掷硬币A,根据其结果选出硬币B或C,正面选B,反面选转载 2014-02-26 18:10:46 · 6767 阅读 · 3 评论 -
【机器学习系列】EM算法
EM算法作者:罗维初稿:2011年1月15日修正:2012年1月14日很碰巧,时隔一年了。面对经典的EM算法,我有了新的认识。经常有人谈到它就是"鸡生蛋,蛋生鸡"的解法,这个很通俗,但是只了解到这一层,是远不够的……EM算法的全名是Expectation Maximization,中文名叫期望最大化算法。它是一个在含有隐变量的模型中常用的算法,在最大似然估计转载 2014-02-26 09:54:51 · 2581 阅读 · 2 评论 -
深度学习读书笔记之RBM
深度学习读书笔记之RBM/***************************** 转自:http://blog.csdn.net/mytestmy/article/details/9150213****************************/声明:1)看到其他博客如@zouxy09都有个声明,老衲也抄袭一下这个东西2)该博文是整理自网上很大牛和机转载 2014-02-13 19:31:00 · 1698 阅读 · 1 评论 -
【机器学习系列】机器学习16本免费电子书
The LION Way: Machine Learning plus Intelligent Optimizationby Roberto Battiti, Mauro Brunato - Lionsolver, Inc., 2013The introduction of the book says, “Learning and Intelligent Optimization (LIO转载 2014-02-17 09:51:56 · 6037 阅读 · 0 评论 -
【机器学习系列】感知机学习代码
例题见《统计学习方法》P29例2.1感知机学习代码:#coding:gbktrain_set=[[3,3,1], [4,3,1], [1,1,-1]]w=[0,0]b=0learn_ratio=1def predict(t,w,b): return t[2]*(w[0]*t[0]+w[1]*t[1]+b)>0d原创 2014-02-27 16:58:16 · 1374 阅读 · 0 评论 -
【机器学习系列】特征值、奇异值以及奇异值分解
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值转载 2014-02-18 09:46:55 · 2392 阅读 · 0 评论 -
变分推断学习笔记(1)——概念介绍
问题描述变分推断是一类用于贝叶斯估计和机器学习领域中近似计算复杂(intractable)积分的技术,它广泛应用于各种复杂模型的推断。本文是学习PRML第10章的一篇笔记,错误或不足的地方敬请指出。先给出问题描述。记得在上一篇EM的文章中,我们有一个观察变量X={x{1},…,x{m}}和隐藏变量Z={z{1},…,z{m}}, 整个模型p(X,Z)是个关于变量X,Z的联合分布转载 2014-03-04 22:01:56 · 3957 阅读 · 0 评论 -
linux下xgboost安装
sudo -H pip install --pre xgboost原创 2017-04-19 13:45:33 · 1123 阅读 · 1 评论