2017年10月_CopperDong

12月 11月 10月 09月 08月

转载 ubuntu16.04+gtx1060+cuda8.0+caffe安装、测试经历

首先说明，这是在台式机上的安装测试经历，首先安装的win10，然后安装ubuntu16.04双系统，显卡为GTX1060 台式机显示器接的是GTX1060 HDMI口，win10上首先安装了最新的GTX1060驱动372.54废话不多说，上车吧，少年一、首先安装nvidia显卡驱动我是1080P的显示器，在没有安装显卡驱动前，ubuntu分辨率很低，可以手动

2017-10-17 17:07:10 889

原创树回归

实际生活中很多问题都是非线性的,不可能使用全局线性模型来拟合任何数据一种可行的方法是将数据集切分成很多份易建模的数据,然后利用线性回归技术来建模.如果首次切分后仍然难以拟合线性模型就继续切分.在这种切分方式下,树结构和回归法就相当有用. ID3的做法是每次选取当前最佳的特征来分割数据,并按照该特征的所有可能取值来切分,一旦按某特征切分后,该特征在之后的算法执行过程中将不

2017-10-10 09:27:19 345

原创预测数值型数据:回归

一,标准回归函数from numpy import *def loadDataSet(fileName): #general function to parse tab -delimited floats numFeat = len(open(fileName).readline().split('\t')) - 1 #get number of fields

2017-10-09 21:13:57 628

原创利用AdaBoost元算法提高分类性能

当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见,这就是元算法(meta-algorithm)或者叫集成方法(ensemble method)背后的思路. 接下来我们将集中关注一个称作AdaBoost的最流行的元算法优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调节缺点:对离群点敏感

2017-10-09 18:37:59 403

原创决策树

一, 信息增益H = - sum( p(xi) *log2(p(xi)) )from math import logimport operatordef createDataSet(): dataSet = [ [1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0,

2017-10-09 09:27:45 513

转载最近收集的中科院研究生教学视频

[?][-]eD2k链接帮助 | eMule官方 | eMule Fans 电骡爱好者 | eMule-Mods.de | 插件主页小波与滤波器组-28-中科院.iso 查源2.27GB[面向对象程序设计CPP]-29-中科院.iso 查源2.53GB[算法设计与分析-30讲]-中科院

2017-10-08 16:47:20 3146 1

转载 EM算法及其应用（代码）

最近上模式识别的课需要做EM算法的作业，看了机器学习公开课及网上的一些例子，总结如下：（中间部分公式比较多，不能直接粘贴上去，为了方便用了截图，请见谅）概要适用问题EM算法是一种迭代算法，主要用于计算后验分布的众数或极大似然估计，广泛地应用于缺损数据、截尾数据、成群数据、带有讨厌参数的数据等所谓不完全数据的统计推断问题。优缺点优点：EM算法简单且稳定，迭代能保证观察数据对数后验

2017-10-08 16:45:30 2322

转载常用采样方法

常用采样方法最近在学习 MCMC，一种特殊的采样方法，顺便把其他常用的方法了解了一下。为什么要采样？很多问题，我们只需要使用数学解析的方法即可解决。例如对 f(x)做积分，如果 f(x) = x^2，那么直接积分就行，很简单。若f(x)是标准正态分布的概率密度函数（pdf），求[a,b]之间的定积分，那么直接用数学解析方法就搞不定了，因为我们知道正态分布的积分是

2017-10-08 15:26:59 1021

原创使用FP-growth算法来高效发现频繁项集

在搜索引擎中输入一个单词或者单词的一部分，就会自动补全查询词项　　FP-growd基于Apriori构建,但在完成相同任务时采用了一些不同的技术.这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或频繁项对,即常在一块出现的元素项的集合FP树.这种做法是的算法的执行速度要快于Apriori,通常性能要好两个数量级以上.一,FP树频繁模式(Frequent Pa

2017-10-07 21:22:12 583

原创使用apriori算法进行关联分析

关联分析：从大规模数据集中寻找物品之间的隐含关系。目标包括两项：发现频繁项集和发现关联规则　　主要问题在于，寻找物品的不同组合是一项十分耗时的任务，所需的计算代价很高，蛮力搜索方法并不能解决这个问题。一、关联分析　　｛尿布与啤酒｝　　Apriori算法　　　　优点：易编码实现　　　　缺点：在大数据上可能较慢　　　　适用数据类型：数值型或者标称型数据　　频繁项集(fr

2017-10-07 19:21:52 1081

转载推荐研究互联网必读的10本书

01《长尾理论2.0》 THE LONG TAIL:why the future of business is selling less of more [美]克里斯·安德É 著出版时间：2009年5月长尾理论无疑是当代商务人士最为关注的焦点之一。曾¾，克里斯·安德É在《连线》上发表的一篇文章首次探讨了“长尾”问题，现在，这篇文章已¾成为当代最有影响力的商业文章之一，而

2017-10-07 19:14:45 1028

原创 chapter8：聚类－－－群组发现

一、k-means聚类

2017-10-06 20:06:00 598

原创 chapter7：朴素贝叶斯及文本－－－非结构化文本分类

非结构化数据包括邮件、推文、博文、新闻报道等对象。这些数据看上去（至少一眼看上去）并不能很清晰地通过表格来描述。一、一个文本正负倾向性的自动判定系统　　这里的数据集称为训练语料库（training corpus）。语料库中的每条记录即使只是一段１４０个字符的推文，每个文档都标注了正面或负面类别　　一种方法可以从文档的第一句开始，比如Puts the Thrill back in Thr

2017-10-06 16:49:43 542

转载 20 个顶尖的 Python 机器学习开源项目

1. Scikit-learnwww.github.com/scikit-learn/scikit-learnScikit-learn 是基于Scipy为机器学习建造的的一个Python模块，他的特色就是多样化的分类，回归和聚类的算法包括支持向量机，逻辑回归，朴素贝叶斯分类器，随机森林，Gradient Boosting，聚类算法和DBSCAN。而且也设计出了Python nu

2017-10-06 11:36:17 539

转载机器学习算法与Python实践之支持向量机（SVM）初级

机器学习算法与Python实践之支持向量机（SVM）初级机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。在这一节我们主要是对支

2017-10-06 11:32:39 510

转载 SVM -支持向量机原理与实践之实践篇

SVM -支持向量机原理与实践之实践篇前言最近太忙，这几天还是抽空完成实践篇，毕竟所有理论都是为实践服务的，上一篇花了很大篇幅从小白的角度详细的分析了SVM支持向量积的原理，当然还有很多内容没有涉及到，例如支持向量回归，不敏感损失函数等内容，但是也不妨碍我们用支持向量机去实现一个分类系统，因为有了对前面说讲述知识的一定的了解，就可以很好的为我们这一篇的实践内容服务。

2017-10-06 11:28:25 464

原创 chapter6:概率及朴素贝叶斯－－朴素贝叶斯

利用近邻算法，很难量化分类的置信度。而基于概率的分类算法－－－贝叶斯算法却不仅能够分类而且能够给出分类的概率，比如这个运动员８０％的概率是一名篮球运动员　　P(h)称为h的先验概率prior probability P(h | d)称为h的后验概率posterior probability一、贝叶斯定理二、朴素贝叶斯

2017-10-05 21:40:25 415

原创 chapter5:分类的进一步探讨－－－算法评估及kNN

一、１０折交叉验证(10-fold cross validation)　　将数据集随机分成１０份，使用其中９份进行训练而将另外１份用作测试。该过程可以重复１０次，每次使用的测试数据不同二、留一法(Leave-One-Out)　　　　在机器学习领域，n折交叉验证(n是数据集中样本的数目)被称为留一法。　　　　它的一个优点是每次迭代中都使用了最大可能数目的样本来训练。　　　　另一个

2017-10-05 20:28:39 533

原创 chapter4:内容过滤及分类－－－基于物品属性的过滤

协同过滤也称为社会过滤，利用了用户社区的力量来帮助进行推荐，它的难点，包括数据稀疏和扩展性带来的问题，另一个问题是基于协同过滤的推荐系统倾向于推荐已流行的物品，即偏向于流行事物。作为一个极端的例子，考虑一个全新乐队刚发布的专辑，由于乐队和专辑从没被人评价过或者没人购买过，因此它永远不会被推荐，这就是所谓的“冷启动”问题。会带来“富者越富”的效果　　一种不同的推荐方法。考虑流音乐网站Pandor

2017-10-05 18:28:12 410

原创 Ptyhon可视化：chapter3--绘制并定制化图表

一、定义图标类型－－－柱状图、线形图和堆积柱状图　　　从matplotlib.pyplot库的一些常用图表入手matplotlib中的基本图表包括一下元素：ｘ轴和ｙ轴ｘ轴和ｙ轴刻度ｘ轴和ｙ轴刻度标签绘图区域from matplotlib.pyplot import *x = [1, 2, 3, 4]y = [5, 4, 3, 2]figure() # cre

2017-10-04 19:10:30 584

原创 chapter3:协同过滤－隐式评级及基于物品的过滤

前面提到，有一些证据表明，用户通常不使用细粒度的区分机制，而是倾向于要不给最高评分要不给最低评分。这种非此即彼的极端评级方式有时可能会导致结果无法使用。本章将考察对协同过滤的调优方法，以便更高效低产生更精确的推荐结果。　　　显示评级：指用户显示地给出物品的评级结果。如点赞／点差／评分　　　隐式评级：观察用户的行为来获得结果。如跟踪用户在纽约时报在线上的点击轨迹，对某个用户的点击行为观察几周

2017-10-04 16:19:08 1065

原创 chapter2:协同过滤

一、如何寻找相似用户　　曼哈顿距离(Manhattan Distance) ｜x1 - x2 | + | y1 - y2 | 欧式距离　　　　sqrt( (x1-x2)^2 + (y1-y2)^2 )　　N维下的思考　　　　 ×××　　一个缺陷　　　　当没有缺失值时，曼哈顿距离和欧式距离非常好。缺失值的处

2017-10-04 14:08:57 655

转载机器学习经典书籍

前面有一篇机器学习经典论文/survey合集811。本文总结了机器学习105的经典书籍，包括数学基础和算法理论的书籍。本文会保持更新，欢迎推荐。入门书单《数学之美》 PDF2.3K作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。《Programming Collective Intelligence》（《集体智慧编程》）PDF1

2017-10-01 19:19:26 596

转载深度学习FPGA实现基础知识6(Deep Learning（深度学习）学习资料大全及CSDN大牛博客推荐)

需求说明：深度学习FPGA实现知识储备来自：时间的诗第一部分：博客大牛（深度学习方向）1、http://blog.csdn.net/zouxy09研究方向：机器学习、计算机视觉、人机交互和人工智能等领域作品：Deep Learning（深度学习）学习笔记整理系列网友评价：深入浅出、条理清晰、内容全面、适合反复阅读

2017-10-01 19:17:29 1012