2017年06月_csdn_yuan88

原创 P-value个人理解

最近见到p-value的频率有点高，之前也看到很多次了，基本当时懂了过几天就忘记了，整理下。P值定义[from：百度百科]P值即概率，反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值，一般以P < 0.05 为有统计学差异， P<0.01 为有显著统计学差异，P<0.001为有极其显著的统计学差异。其含义是样本间的差异由抽样误差所致的概率小于0....

2017-06-04 13:01:14 34610

转载为何数据视觉化越来越火

转自：http://qingmang.me/articles/4430966316133062915视觉化沟通已成为所有管理者的必修课，因为在越来越多情境下，视觉化将成为传达工作内容的惟一途径。不久前，数据视觉化还只是一项锦上添花的技能。大多数情况下，从中受益的是重视设计和数据并主动进行相关投入的管理者。但现在不同了：视觉化沟通已成为所有管理者的必修课，因为在越来越多情境下，视觉化将成...

2017-06-03 18:09:10 5693

原创 JDK_的配置

JDK的配置JDK的配置set JAVA_HOME=D:\Program Files\JAVAJDKset CLASSPATH=.;%JAVA_HOME%Path=%JAVA_HOME%\bin;%Path%javac-versionjava-version

2017-06-03 17:52:07 1816

原创 U盘修复

问题：老毛桃制作失败，导致1，空间变少2，win7下-我的电脑-磁盘管理无法正常格式化。1,usboot1.7,使用1重置数据-hdd格式化（中间会插拔一次）-电脑磁盘管理可以看到恢复为完整空间2,此时，在磁盘管理和资源管理器中都无法格式化（普通格式和快格都不行）3，使用zip格式化尝试，依然无法格式化,重新使用HDD格式化。...

2017-06-03 17:51:05 2140

原创 7zip和winrar命令行备份

个人数据习惯固定数据：所有重要数据都在云盘有备份，图片视频等百度盘变动数据：比如笔记，日程等，采用每日随电脑启动批处理程序，需要将日常变更压缩打包后放到同步盘文件夹下，自动同步这样即使电脑中毒，或意外损坏等，都不需要担心个人数据的丢失（个人感觉，数据比硬件值钱）分享下7zip和rar的压缩命令~7z命令行压缩方法set path="D:\Program File...

2017-06-03 17:49:44 3002

原创 VIM学习笔记

基本： :e hjkl i,a,o,O / :%s/源字符串/目的字符串/g :wq,:q 标签命令小结 :tabnew :tabe 新建标签页编辑文件 :tabs 显示已打开标签页的列表 :tabc 关闭当前标签页 :tabn 移动到下一个标...

2017-06-03 17:44:12 1815

原创阿里天池_优秀策略答辩PPT和相关博客

简介前段时间想熟悉下机器学习完整项目，选择了阿里之前的一个相对实际的移动推荐项目（实际是分类，并非推荐），有兴趣自己研究。将本人参考借鉴的blog和ppt做了简单整理回顾。加深下印象阿里天池大数据之移动推荐算法大赛总结及代码全公布地址：http://blog.csdn.net/datuqiqi/article/details/46834579#1，找规则，买过不会再买...

2017-06-03 17:37:51 4531 1

转载 HMM一文搞懂HMM（隐马尔可夫模型）

什么是熵(Entropy)简单来说，熵是表示物质系统状态的一种度量，用它老表征系统的无序程度。熵越大，系统越无序，意味着系统结构和运动的不确定和无规则；反之，，熵越小，系统越有序，意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化，组织化，复杂化状态的一种度量。熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念，用来表示任何一种能量在空间...

2017-06-03 17:28:13 2171

原创 notepad++行首行尾添加字符

方法1，\r\nctrl+f,调出替换对话框，查找\r\n；替换为：xxx（要添加的特殊字符）；扩展（\n,\r,\t,\0,\x...)循环查找，向下执行替换。方法2，正则法正则表达式下，$表示行尾,^表示行首.（记得选择“正则表达式”的选中框）...

2017-06-03 17:27:36 7742

转载 HMM隐马尔可夫模型（HMM）攻略

隐马尔可夫模型(Hidden Markov Model，HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中，随后在语言识别，自然语言处理以及生物信息等领域体现了很大的价值。平时，经常能接触到涉及HMM的相关文章，一直没有仔细研究过，都是蜻蜓点水，因此，想花一点时间梳理下，加深理解，在此特别感谢 52nlp 对 HMM 的详细介绍。　　考虑下面交通灯的例子，一...

2017-06-02 09:49:39 2725

转载 LDA通俗理解LDA主题模型

转自：http://blog.csdn.net/v_july_v/article/details/41209515#t13 通俗理解LDA主题模型0 前言印象中，最开始听说“LDA”这个名词，是缘于rickjin在2013年3月写的一个LDA科普系列，叫LDA数学八卦，我当时一直想看来着，记得还打印过一次，但不知是因为这篇文档的前序...

2017-06-02 09:49:14 3082

转载 K-means均值聚类算法的原理与实现

转自：http://blog.csdn.net/xiaolewennofollow/article/details/45541159K-均值聚类算法的原理与实现聚类是一种无监督的学习，它将相似的对象归到同一个簇中，聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好，本文主要介绍K-均值聚类的算法，之所以称之为K-均值是因为它可以发现k个不同的簇，并且每个簇的中心采用簇中所含的...

2017-06-02 09:48:57 6921

转载 k-means及变种

转自：http://blog.csdn.net/tuqinag/article/details/45893459聚类算法聚类算法是属于无监督学习算法中非常常用的一种。算法使用的训练数据中的标签信息是未知的，目标是通过对无标记的训练样本的学习来揭示内在的性质和规律。聚类过程能够自动地形成簇结构，但是簇对应的概念语意需要由使用者来决定。聚类既能作为一个单独的过程，用于寻找数据的内在分布结构，也...

2017-06-02 09:48:34 4152

转载 Logistic逻辑回归模型(LR)基础

逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上，套用了一个逻辑函数，但也就由于这个逻辑函数，使得逻辑回归模型成为了机器学习领域一颗耀眼的明星，更是计算广告学的核心。本文主要详述逻辑回归模型的基础，至于逻辑回归模型的优化、逻辑回归与计算广告学等，请关注后续文章。1 逻辑回归模型回归是一种极易理解的模型，就相当于y=f(x)，表明自变量x与因...

2017-06-02 09:48:12 2306

转载 GBDT(MART) 迭代决策树入门教程

在网上看到一篇对从代码层面理解gbdt比较好的文章，转载记录一下： GBDT(GradientBoostingDecisionTree)又叫MART（MultipleAdditiveRegressionTree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（gener...

2017-06-02 09:47:58 1956

转载 GA遗传算法入门到掌握

遗传算法的有趣应用很多，诸如寻路问题，8数码问题，囚犯困境，动作控制，找圆心问题（这是一个国外网友的建议：在一个不规则的多边形中，寻找一个包含在该多边形内的最大圆圈的圆心。），TSP问题（在以后的章节里面将做详细介绍。），生产调度问题，人工生命模拟等。直到最后看到一个非常有趣的比喻，觉得由此引出的袋鼠跳问题（暂且这么叫它吧），既有趣直观又直达...

2017-06-02 09:47:31 6036 2

转载 GA遗传算法(Genetic Algorithm)

遗传算法（Genetic Algorithm）又叫基因进化算法，或进化算法。属于启发式搜索算法一种，这个算法比较有趣，并且弄明白后很简单，写个100-200行代码就可以实现。在某些场合下简单有效。本文就花一些篇幅，尽量白话方式讲解一下。首先说一下问题。在我们学校数据结构这门功课的时候，时常会有一些比较经典的问题（而且比较复杂问题）作为学习素材，如八皇后，背包问题，染色...

2017-06-02 09:47:14 3321

转载 EM从最大似然到EM算法浅解

从最大似然到EM算法浅解zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习十大算法之一：EM算法。能评得上十大之一，让人听起来觉得挺NB的。什么是NB啊，我们一般说某个人很NB，是因为他能解决一些别人解决不了的问题。神为什么是神，因为神能做很多人做不了的事。那么EM算法能解决什么问题呢？或者说EM算法是因为什么而来到这个世...

2017-06-02 09:46:45 1952

转载 DBSCAN聚类算法初探（五）

转自：http://blog.csdn.net/itplus/article/details/10088625第一章引言第二章预备知识第三章直接聚类法第四章 K-means第五章 DBSCAN第六章 OPTICS第七章聚类分析的效果评测第八章数据尺度化问题发表在 Science 上的一种新聚类算法作...

2017-06-02 09:46:26 2062

　　最近在看深度学习的东西，一开始看的吴恩达的UFLDL教程，有中文版就直接看了，后来发现有些地方总是不是很明确，又去看英文版，然后又找了些资料看，才发现，中文版的译者在翻译的时候会对省略的公式推导过程进行补充，但是补充的又是错的，难怪觉得有问题。反向传播法其实是神经网络的基础了，但是很多人在学的时候总是会遇到一些问题，或者看到大篇的公式觉得好像很难就退缩了，其实不难，就是一个链式求导法则反复用。...

2017-06-02 09:46:14 1872

转载 Adaboost 算法的原理与推导

转自：http://blog.csdn.net/v_july_v/article/details/40718799 Adaboost 算法的原理与推导0 引言一直想写Adaboost来着，但迟迟未能动笔。其算法思想虽然简单：听取多人意见，最后综合决策，但一般书上对其算法的流程描述实在是过于晦涩。昨日11月1日下午，在我组织的机器学习班第8次课上讲决...

2017-06-02 09:45:57 1749

转载处理数据不均衡的策略

数据不均衡往往可以导致一些问题，比如对一个两类分类问题，如果训练集中的正负样本比例为99：1，那么直接将所有样本都分为正样本，模型的准确度也可以达到99%。准确度通常是我们衡量一个模型性能的基本指标（starting point），但是它有时候并不客观（misleading），这个可以参考accuracy paradox。但其实这个训练的模型并没有什么用。那么在训练集中数据不均衡的条件下，如果避免...

2017-06-02 09:45:43 1973

转载特征工程

转自:http://www.cnblogs.com/weibao/p/6252280.html特征工程上周参加了学校的数据挖掘竞赛，总的来说，在还需要人工干预的机器学习相关的任务中，主要解决两个问题：（1）如何将原始的数据处理成合格的数据输入（2）如何获得输入数据中的规律。第一个问题的解决方案是：特征工程。第二个问题的解决办法是：机器学习。相对机器学习的算法...

2017-06-02 09:45:33 1867

转载七种常用特征工程

像一个优秀的工程师一样使用机器学习，而不要像一个机器学习专家一样使用机器学习方法。 ---google当在做数据挖掘和数据分析时，数据是所有问题的基础，并且会影响整个工程的流程。相比一些复杂的算法，如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特征工程。一、什么是特征工程简单的说，特征工程是能够将数据像艺术一样展现的技术。为什么这么说呢？因为好的特征工程很...

2017-06-02 09:45:16 1894

转载多重共线性问题的几种解决方法

在多元线性回归模型经典假设中，其重要假定之一是回归模型的解释变量之间不存在线性关系，也就是说，解释变量X1，X2，……，Xk中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定，即线性回归模型中某一个解释变量与其他解释变量间存在线性关系，就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设，将给普通最小二乘法带来严重后果。所谓多重共线性是指线性回...

2017-06-02 09:45:04 19763

转载文本表示VSM

要使得计算机能高效的处理真实文本，就必须找到一种理想的形式化表示方法，这种表示一方面能真实的反映文档内容(主题、领域或结构等)，另一方面也要有对不同文档的区分能力。目前文本表示通常采用向量空间模型(vector space model, VSM)。VSM是20世纪60年代末期由G. Salton等人提出的，是当前自然语言处理中常用的主流模型。下面首先给出VSM设计的基本概念：...

2017-06-02 09:44:55 2529

转载 TF-IDF

本帖最后由革命女兵于 2010-10-26 15:09 编辑 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加，但同时会随著它在语料库中出现的频率成反比下降。...

2017-06-02 09:44:29 1580

转载 ROC曲线与AUC以及LIFT

ROC曲线对于0,1两类分类问题,一些分类器得到的结果往往不是0,1这样的标签,如神经网络,得到诸如0.5,0,8这样的分类结果。这时,我们人为取一个阈值,比如0.4,那么小于0.4的为0类,大于等于0.4的为1类,可以得到一个分类结果。同样,这个阈值我们可以取0.1,0.2等等。取不同的阈值,得到的最后的分类情况也就不同。如下面这幅图:蓝色表示原始为负类分类得到的统计图,红...

2017-06-02 09:43:13 8803 1

转载分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵

跑完分类模型（Logistic回归、决策树、神经网络等），我们经常面对一大堆模型评估的报表和指标，如Confusion Matrix、ROC、Lift、Gini、K-S之类（这个单子可以列很长），往往让很多在业务中需要解释它们的朋友头大：“这个模型的Lift是4，表明模型运作良好。——啊，怎么还要解释ROC，ROC如何如何，表明模型表现良好……”如果不明白这些评估指标的背后的直觉，就很可能陷入这样...

2017-06-02 09:42:58 2757

转载 Logistic逻辑回归用初等数学解读逻辑回归

2017-06-01 16:59:25 2191

转载 Logistic逻辑回归总结

Logistic回归总结作者：洞庭之子微博：洞庭之子-Bing（2013年11月）PDF下载地址：http://download.csdn.net/detail/lewsn2008/65474631.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解，然后又看了《机器学习实战》中的LogisticReg...

2017-06-01 16:58:30 1653

转载 LTR学习排序 Learning to Rank 小结

出处：http://blog.csdn.NET/nanjunxiao/article/details/8976195学习排序（Learning to Rank）LTR（Learning torank）学习排序是一种监督学习（SupervisedLearning）的排序方法。LTR已经被广泛应用到文本挖掘的很多领域，比如IR中排序返回的文档，推荐系统中的候选产品、用户排序，...

2017-06-01 16:57:26 17682

转载 NB贝叶斯平凡而又神奇的贝叶斯方法

转自：http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/概率论只不过是把常识用数学公式表达了出来。——拉普拉斯目录0. 前言1. 历史 1.1 一个例子：自然语言的二义性 1.2 贝叶斯公式2. 拼写纠正3. 模型比较与贝叶斯奥卡姆剃刀 3.1 再访拼写纠正 3.2 ...

2017-06-01 16:56:01 2319

转载 NB朴素贝叶斯理论推导与三种常见模型

转自：http://www.tuicool.com/articles/zEJzIbR朴素贝叶斯（Naive Bayes）是一种简单的分类算法，它的经典应用案例为人所熟知：文本分类（如垃圾邮件过滤）。很多教材都从这些案例出发，本文就不重复这些内容了，而把重点放在理论推导（其实很浅显，别被“理论”吓到），三种常用模型及其编码实现（Python）。如果你对理论推导过程不感兴趣，可以直接逃到三种常...

2017-06-01 16:53:12 8789 3

转载 PCA 主成分分析Principal components analysis

问题1、比如拿到一个汽车的样本，里面既有以“千米/每小时”度量的最大速度特征，也有“英里/小时”的最大速度特征，显然这两个特征有一个多余。2、拿到一个数学系的本科生期末考试成绩单，里面有三列，一列是对数学的兴趣程度，一列是复习时间，还有一列是考试成绩。我们知道要学好数学，需要有浓厚的兴趣，所以第二项与第一项强相关，第三项和第二项也是强相关。那是不是可以合并第一项和第二项呢？3、拿...

2017-06-01 16:50:39 1805

转载 SVDchapter14 机器学习之利用SVD简化数据

餐馆可划分为很多类别，比如美式、中式、日式、牛排馆、素食店，等等。你是否想过这些类别够用吗?或许人们喜欢这些的混合类别，或者类似中式素食店那样的子类别。如何才能知道到底有多少类餐馆呢?我们也许可以问问专家?但是倘若某个专家说应该按照调料分类，而另一个专家则认为应该按照配料分类，那该怎么办呢?忘了专家，我们还是从数据着手吧。我们可以对记录用户关于餐馆观点的数据进行处理，并且从中提取出其背后的...

2017-06-01 16:41:10 2126

转载 SVD奇异值分解(PCA,LSI)

2017-06-01 16:39:58 1841

转载 SVM支持向量机通俗导论（理解SVM的三层境界）

神文转自july：http://blog.csdn.net/v_july_v/article/details/7624837 支持向量机通俗导论（理解SVM的三层境界）作者：July 。致谢：pluskid、白石、JerryLead。说明：本文最初写于2012年6月，而后不断反反复复修改&优化，修改次数达上百次，最后...

2017-06-01 16:39:19 1971

转载从gbdt到xgboost

gbdt（又称Gradient Boosted Decision Tree/Grdient Boosted Regression Tree），是一种迭代的决策树算法，该算法由多个决策树组成。它最早见于yahoo，后被广泛应用在搜索排序、点击率预估上。 xgboost是陈天奇大牛新开发的Boosting库。它是一个大规模、分布式的通用Gradient Boosting（GBDT）库，...

2017-06-01 16:16:29 1506

转载决策树剪枝算法（二）

转自：http://www.cnblogs.com/starfire86/p/5749334.html上一章主要描述了ID3算法的的原理，它是以信息熵为度量，用于决策树节点的属性选择，每次优选信息量最多的属性，以构造一颗熵值下降最快的决策树，到叶子节点处的熵值为0，此时每个叶子节点对应的实例集中的实例属于同一类。理想的决策树有三种：1.叶子节点数最少2.叶子加点深度最小...

2017-06-01 16:15:05 3439

ta-lib-0.4.0-src.tar.gz

空空如也