机器学习
liujianfei526
这个作者很懒,什么都没留下…
展开
-
Python机器学习库scikit-learn实践
Python机器学习库scikit-learn实践zouxy09@qq.comhttp://blog.csdn.net/zouxy09 一、概述 机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得其中各算法理论,叫你喊上一两个著名算法的名字,你也能昂首挺胸脱口而出。当然了,算法之林虽大,但能者还是有限,能适应某些环境并取得较好效果的算法会脱转载 2016-01-05 21:59:45 · 666 阅读 · 0 评论 -
特征选择常用算法综述
1 综述(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2) 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其转载 2016-06-24 10:18:56 · 1432 阅读 · 2 评论 -
主题模型-LDA浅析
上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少转载 2016-05-16 14:04:59 · 313 阅读 · 0 评论 -
最透彻的关于“随机数种子”和“伪随机数”的产生原理
总之:1.伪随机数并不是假随机数,这里的“伪”是有规律的意思,就是计算机产生的伪随机数既是随机的又是有规律的。2.随机种子来自系统时钟,确切地说,是来自计算机主板上的定时/计数器在内存中的记数值。3.随机数是由随机种子根据一定的计算方法计算出来的数值。所以,只要计算方法一定,随机种子一定,那么产生的随机数就不会变。也就是说,伪随机数也是某种对应映射的产物,只不过这个自变量是系统的时间而转载 2016-05-01 14:16:20 · 16567 阅读 · 1 评论 -
探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤
在 IBM Bluemix 云平台上开发并部署您的下一个应用。开始您的试用集体智慧和协同过滤什么是集体智慧集体智慧 (Collective Intelligence) 并不是 Web2.0 时代特有的,只是在 Web2.0 时代,大家在 Web 应用中利用集体智慧构建更加有趣的应用或者得到更好的用户体验。集体智慧是指在大量的人群的行为和数据中收集答案,帮助你对整转载 2016-04-25 15:15:37 · 337 阅读 · 0 评论 -
机器学习相关——协同过滤
在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最转载 2016-04-25 15:13:42 · 252 阅读 · 0 评论 -
机器学习中的范数规则化之(二)核范数与规则项参数选择
机器学习中的范数规则化之(二)核范数与规则项参数选择zouxy09@qq.comhttp://blog.csdn.net/zouxy09 上一篇博文,我们聊到了L0,L1和L2范数,这篇我们絮叨絮叨下核范数和规则项参数选择。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 三、核范数 核范数||W||*是指矩阵奇异转载 2016-02-18 21:03:05 · 380 阅读 · 0 评论 -
Stanford机器学习---第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization
本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning转载 2016-02-17 09:39:11 · 570 阅读 · 0 评论 -
weka的java使用(3)——特征选择
CFS的算法,可以参考这篇文章correlation-based feature selection for machine learning。继续weka的编程系列。数据挖掘的一个重要的过程就是要特征选择,主要作用就是降维,并且降低计算的复杂性,摒弃那些可能的潜在噪声。在我的paper中和硕士论文中都用到了CFS的特征子集选择方法,配以最佳优先的搜索或者贪心搜索,这样可以将维度比较高的训转载 2016-06-24 10:34:33 · 5033 阅读 · 0 评论 -
损失函数(Loss Function)
http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdfLoss Function损失函数可以看做 误差部分(loss term) + 正则化部分(regularization term)1.1 Loss TermGold Standard (ide转载 2016-05-21 12:45:32 · 872 阅读 · 0 评论 -
特征离散化
作者:严林链接:http://www.zhihu.com/question/31989952/answer/54184582来源:知乎著作权归作者所有,转载请联系作者获得授权。在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0. 离散特征的增加和减少都很容易,易于模型的快速迭代;1转载 2016-08-30 19:09:05 · 772 阅读 · 0 评论 -
数据处理——One-Hot Encoding
一、One-Hot Encoding One-Hot编码,又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。 在实际的机器学习的应用任务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分为“male”和“female”。在机器学习任务中,对于这样的特征,通常我们需要对其进行特征数字化,如下面的例子:转载 2016-08-30 19:00:54 · 434 阅读 · 0 评论 -
机器学习常见算法个人总结(面试用)
朴素贝叶斯参考[1]事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生AP(A∩B)=P(A)∗P(B|A)=P(B)∗P(A|B)所以有:P(A|B)=P(B|A)∗P(A)P(B)对于给出的待分类项,求解在此项出现的条件下各个目标类别出现的概率,哪个最大,就认为此待分类项属于哪个类别工作原理假设现在有样本x=(a转载 2016-07-30 16:00:21 · 897 阅读 · 0 评论 -
数据挖掘算法之-关联规则挖掘(Association Rule)
在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。一、关联规则的定义和属性 考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事务3 中则同时出现了物品甲和乙。那么,物品甲和转载 2016-06-13 19:24:23 · 14540 阅读 · 0 评论 -
FP-Tree频繁模式树算法
参考资料:http://blog.csdn.net/sealyao/article/details/6460578更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm介绍FP-Tree算法全称是FrequentPattern Tree算法,就是频繁模式树算法,他与Apriori算法一样也是用来挖掘频繁项集的,不过不同的是,转载 2016-06-13 19:23:03 · 12032 阅读 · 0 评论 -
Apriori算法详解之【一、相关概念和核心步骤】
感谢红兰整理的PPT,简单易懂,现在将其中精彩之处整理,与大家分享。一、Apriori算法简介: Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori(先验的,推测的)算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地转载 2016-06-13 19:21:28 · 1850 阅读 · 0 评论 -
Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉转载 2016-06-26 10:15:20 · 1189 阅读 · 0 评论 -
(转)hadoop多文件格式输入
hadoop多文件格式输入,一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式 原文:http://blog.csdn.net/fansy1990/article/details/26267637 版本:CDH5.0.0 (hdfs:2.3,mapreduce:2.3,yarn:2.3)hadoop多文件格式输入,一般可转载 2016-05-22 17:26:44 · 383 阅读 · 0 评论 -
crf模型分词算法
前言: 本次实验主要任务是学习CRF模型的参数,实验例子和PGM练习3中的一样,用CRF模型来预测多张图片所组成的单词,我们知道在graph model的推理中,使用较多的是factor,而在graph model参数的学习中,则使用较多的是指数线性模型,本实验的CRF使用的是log-linear模型,实验内容请参考 coursera课程:Probabilistic Graphical转载 2016-02-15 11:29:20 · 5986 阅读 · 0 评论 -
推导条件随机场参数估计的全过程
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。作者:宁远成梁链接:http://www.zhihu.com/question/20380549/answer/45066785来源:知乎写在前面的部分:条件随机场结构各种各样,我们来个最简单的线性条件随机场,推导的方法也用最简单的梯度下降法。想必要对条件随机场进行参数估计的 一定对CRF有所理解,一些基本转载 2016-02-13 12:01:01 · 2585 阅读 · 0 评论 -
机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)
机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。转载 2016-01-05 19:01:40 · 1137 阅读 · 0 评论 -
朴素贝叶斯分类
1.3、贝叶斯分类的基础——贝叶斯定理 每次提到贝叶斯定理,我心中的崇敬之情都油然而生,倒不是因为这个定理多高深,而是因为它特别有用。这个定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的转载 2016-01-06 17:53:01 · 435 阅读 · 0 评论 -
机器学习算法与Python实践之(四)支持向量机(SVM)实现
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了。 在这一节我们主要是对支持向量机进行系统的回顾,以及通过Python来实现。由于内容很多,所以这里分成三篇博文。第一篇讲SVM初转载 2016-01-05 21:49:03 · 973 阅读 · 0 评论 -
机器学习算法与Python实践之(二)支持向量机(SVM)初级
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了。 在这一节我们主要是对支持向量机进行系统的回顾,以及通过Python来实现。由于内容很多,所以这里分成三篇博文。第一篇讲SVM初转载 2016-01-05 21:43:10 · 527 阅读 · 0 评论 -
机器学习算法与Python实践之(三)支持向量机(SVM)进阶
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了。 在这一节我们主要是对支持向量机进行系统的回顾,以及通过Python来实现。由于内容很多,所以这里分成三篇博文。第一篇讲SVM初转载 2016-01-05 21:43:58 · 546 阅读 · 0 评论 -
机器学习算法与Python实践之(五)k均值聚类(k-means)
机器学习算法与Python实践之(五)k均值聚类(k-means)zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的转载 2016-01-05 21:52:10 · 865 阅读 · 0 评论 -
机器学习算法与Python实践之(一)k近邻(KNN)
机器学习算法与Python实践之(一)k近邻(KNN)zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就转载 2016-01-05 21:53:10 · 424 阅读 · 0 评论 -
机器学习中的范数规则化之(一)L0、L1与L2范数
机器学习中的范数规则化之(一)L0、L1与L2范数zouxy09@qq.comhttp://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都转载 2016-01-05 21:58:14 · 400 阅读 · 0 评论 -
从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
原文出自:http://blog.csdn.net/v_JULY_v/article/details/8203674前言 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1、KD树;2、神经网络;3、编程艺术第28章。你看到,blog内的文章与你于别处所见的任何都不同。于是,等啊等,等一台电脑,只好等待..”。得益于田,借了我一台电脑(借他电脑的时候,我连表示感谢,他说“转载 2016-01-03 16:30:28 · 695 阅读 · 0 评论 -
K-Means 算法
最近在学习一些数据挖掘的算法,看到了这个算法,也许这个算法对你来说很简单,但对我来说,我是一个初学者,我在网上翻看了很多资料,发现中文社区没有把这个问题讲得很全面很清楚的文章,所以,把我的学习笔记记录下来,分享给大家。在数据挖掘中, k-Means 算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。问题K-Mea转载 2015-12-31 11:02:59 · 321 阅读 · 0 评论 -
一个不错的自然语言处理词典
前不久发现了一个“自然语言处理词典(The Natural Language Processing Dictionary)”,觉得很有意思。作者Bill Wilson是澳大利亚新南威尔士大学的一名教授,因为开了一门“人工智能”课程,就为这门课程分别编制了Prolog,人工智能(Artificial Intelligence),机器学习(Machine Learning)以及自然语言处理(Natur转载 2016-02-11 11:39:43 · 4671 阅读 · 0 评论 -
初学者报道(3) CRF 中文分词解码过程理解
一,标记问题解决分词:就是将 词语开始和结束的字标记出来,就能对一个句子完成分词,假设使用两个标记B (开始),E(结束)对句子进行处理,如:“民主是普世价值”,民B主E是B普B世E价B值E, 这样标记明确,分词结果就明确了。二,如何找到最好的标记结果:知道如何用标记的方式解决分词,那么怎么为一个句子找到一个最好的标记序列呢,CRF为这样的问题提供了一个解决方案,对于输入序列X1,X2…Xn(转载 2016-02-11 11:37:40 · 2228 阅读 · 0 评论 -
隐马尔可夫模型(HMM)攻略
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的例子转载 2016-02-08 10:40:14 · 666 阅读 · 0 评论 -
决策树--从原理到实现
================================================================================算算有相当一段时间没写blog了,主要是这学期作业比较多,而且我也没怎么学新的东西接下来打算实现一个小的toy lib:DML,同时也回顾一下以前学到的东西当然我只能保证代码的正确性,不能保证其效率啊~~~~~~之后我会陆续转载 2016-01-06 20:38:18 · 414 阅读 · 0 评论 -
AdaBoost--从原理到实现
一.引入 对于Adaboost,可以说是久闻大名,据说在Deep Learning出来之前,SVM和Adaboost是效果最好的 两个算法,而Adaboost是提升树(boosting tree),所谓“提升树”就是把“弱学习算法”提升(boost)为“强学习算法”(语自《统计学习方法》),而其中最具代表性的也就是Adaboost了,貌似Adaboost的结构还和Neural转载 2016-01-06 20:03:02 · 378 阅读 · 0 评论 -
从K近邻算法谈到KD树、BBF算法
转自 http://blog.csdn.net/v_july_v/article/details/8203674 ,感谢july的辛勤劳动前言 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1、KD树:http://weibo.com/1580904460/z1PosdcKj;2、神经网络:http://weibo.com/1580904转载 2015-06-24 15:52:35 · 1173 阅读 · 0 评论 -
AC自动机算法
AC自动机简介: 首先简要介绍一下AC自动机:Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一。一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。要搞懂AC自动机,先得有字典树Trie和KMP模式匹配算法的基础知识。KMP算法是单模式串的字符匹配算法,AC自动机是多模式串的字符匹配算法。转载 2015-08-15 22:16:38 · 355 阅读 · 0 评论 -
决策树算法——ID3算法,C4.5算法
目录(?)[+]决策树算法1摘要2决策树引导3决策树的构造31ID3算法32C45算法4关于决策树的几点补充说明41如果属性用完了怎么办42关于剪枝决策树算法1、摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行转载 2015-08-21 21:28:47 · 686 阅读 · 0 评论 -
Machine Leanring-Principal Component Analysis(PCA)
Principal Component Analysis方差:数据与平均数之差平方和的平均数。更多详见 Principal Component Analysis(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。通俗的理解,如果把所有的转载 2017-06-05 19:40:55 · 478 阅读 · 0 评论