数据挖掘
Mr.Gavin
熬夜是没有勇气结束这一天赖床是没有勇气开始这一天
展开
-
数据结构(与算法)可视化
【数据结构(与算法)可视化】《Data Structure Visualizations》http://t.cn/hgLu28转载 2015-09-13 09:54:28 · 953 阅读 · 0 评论 -
数据降维之主成分分析、多维缩放、t分布随机近邻嵌入、自编码神经网络
主成分分析(PCA)算法描述: 输入样本集: 低维空间 具体过程: 注意:实践当中通常对样本矩阵进行奇异值分解代替协方差矩阵特征值分解. 维数:的选取规则: 自编码神经网络自动编码器(autoencoder)是神经网络的一种,经过训练后能尝试将输入复制到输出。自编码器内部有一个隐含层h,产生编码来表示输入,一个编码器·函数h=f(x)和一个生成重构解码器r=g(h)。原创 2017-05-09 20:29:14 · 2429 阅读 · 0 评论 -
关于如何解释机器学习的一些方法
关于如何解释机器学习的一些方法 到现在你可能听说过种种奇闻轶事,比如机器学习算法通过利用大数据能够预测某位慈善家是否会捐款给基金会啦,预测一个在新生儿重症病房的婴儿是否会罹患败血症啦,或者预测一位消费者是否会点击一个广告啦,等等。甚至于,机器学习算法还能驾驶汽车,以及预测大选结果!… 呃,等等。它真的能吗?我相信它肯定可以,但是,这些高调的论断应该在数据工作者(无论这些数据是否是『大』数据)以及机转载 2017-05-09 19:08:46 · 885 阅读 · 0 评论 -
隐马尔科夫模型、三个基本问题、三个训练算法
参考一篇“机器学习研究会”的文章与宗庆后的《统计自然语言模型》,督促自己回顾一下HMM模型知识为面试做准备。这次学习会讲了隐马尔科夫链,这是一个特别常见的模型,在自然语言处理中的应用也非常多。常见的应用比如*分词,词性标注,命名实体识别等问题序列标注问题均可使用隐马尔科夫模型*.下面,我根据自己的理解举例进行讲解一下HMM的基本模型以及三个基本问题,希望对大家理解有帮助~ 隐马尔科夫模型定义隐马原创 2017-05-18 11:15:28 · 18218 阅读 · 0 评论 -
数据开发常用的几种数据预处理和数据整理方法
原创 2017-04-27 Kai Wähner 翻译|谢旭 审校|张卫滨 本文比较了用于数据准备的几种方法,它们分别是提取-变换-加载批处理(ETL)、流式获取和数据整理。本文还讨论了数据准备如何与可视化分析相关联,以及不同用户角色(如数据科学家或业务分析人员)应如何共同构建分析模型的最佳实践。 要点 ● 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%。转载 2017-05-16 20:58:49 · 35089 阅读 · 0 评论 -
机器学习过拟合
参照台大机器学习教程 (https://mp.weixin.qq.com/s/vus2mp2RhCL0kPamXVKnAg) - 过拟合的概念:过拟合就是训练出来的模型在训练集上表现很好,但是在测试集上表现较差的一种现象!下图给出例子: 我们将上图第三个模型解释为出现了过拟合现象,过度的拟合了训练数据,而没有考虑到泛化能力。在训练集上的准确率和在开发集上的准确率画在一个图上如下:原创 2017-05-16 19:36:37 · 585 阅读 · 0 评论 -
VC维简单介绍
用途:为了研究学习过程的一致收敛和推广性,统计学理论定义的有关函数集学习性能的一个重要指标. 描述:函数集的VC维就是这个函数集能够打散的最大样本数目。 注意事项:目前尚没有通用的任意函数集的VC维计算理论,但N维空间的线性分类器和线性实函数的VC维是N+1.原创 2017-05-08 10:19:30 · 767 阅读 · 0 评论 -
条件随机场学习
前戏:一起走进条件随机场作者:白宁超2016年8月2日13:59:46【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做 ,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的相关的相关,最后进行大转载 2017-05-06 16:19:37 · 1832 阅读 · 0 评论 -
基于隐马尔科夫模型文本相似度问题研究
文本相似度是表示两个或者多个文本之间匹配程度的一个度量参数,相似度数值大,说明文本相似度高;反之文件相似程度就低。文本相似度的精确计算问题是进行信息处理的关键。在如今信息技术飞速发展的互联网时代,文本相似度计算的应用比较广泛。数十亿的网页,海量的信息充实着人们的知识库,在给人们带来方便的同时也存在不少的问题。人们在享受这些资源的同时也不得不花大量的时间和精力来对其筛选和辨别,如果没有有效的组织原创 2017-05-06 16:14:24 · 2954 阅读 · 1 评论 -
假设检验的基本原理和T检验
转载lietal AlgorithmDog AlgorithmDog,督促自己系统学习假设检验原理: T检验介绍: T检验导出 T检验类型 T 检验有多种类型,可以分为只有一组样本的单体检验和有两组样本的双体检验。单体检验用于检验样本的分布期望是否等于某个值。双体检验用于检验两组样本的分布期望是否相等,又分为配对双体检验和非配对双体检验。配对双体检验的两组样本数据是转载 2017-05-11 15:36:55 · 12650 阅读 · 0 评论 -
自然语言处理当中评价指标汇总
自然语言处理当中评价指标很多,好多专用的术语,本篇旨在对常用的评价指标汇总,督促自己系统学习,大家当做参考不足之处请指出并做交流。文本分类评测指标如下: P-R曲线的比较: 对于A和B曲线,如果需要比较,比较两个曲线的轮廓的面积.宏观和微观评价指标 ROC与AUC曲线 机器翻译当中的评价指标BLEU: 对机器翻译作人工评价时会考量到翻译的许多方面:如机器的充分性、忠实度和流原创 2017-05-11 15:03:26 · 11672 阅读 · 0 评论 -
极客梦的博客
作为自然语言处理中的小学生,喜欢各种新型深度学习框架,无论转载还是原创,旨在督促自己学习更多的知识。写的好与不好作为参考,大家一起交流上进。作为自己文档的“github”使用,积累,分享,开放。原创 2017-05-11 09:50:36 · 460 阅读 · 0 评论 -
文本自动摘要
最近人工智能随着AlphaGo战胜李世乭这一事件的高关注度,重新掀起了一波新的关注高潮,有的说人工智能将会如何超越人类,有的说将会威胁到人类的生存和发展,种种声音都在表明人工智能的又一个春天即将到来,但很多学者认为媒体的过度炒作,会引发民众对人工智能不切实际地期待,从而导致人工智能寒冬的又一次到来。Yann Lecun作为上一个人工智能寒冬时期还在坚持做冷门的神经网络研究的人,他对AI有一个非常理性转载 2017-05-11 09:42:55 · 33590 阅读 · 0 评论 -
周志华 机器学习 学习笔记 (1)
前言:机器学习算法都是基于样本数据独立同分布的假设。(王珏教授)第一部分(1-3章节介绍机器学习的基本知识),第二部分(4-10章介绍一些经典的算法),第三部分(11-16章介绍一些进阶知识),除去前三章之外,各部分相互独立,根据需要自行阅读。绪论 在计算机系统中,经验是以数据的形式存在,因此,机器学习所研究的内容是关于在计算机上从数据中产生“模型”的算法。计算机科学是研究关于算法的学问,那么原创 2016-07-08 10:28:02 · 2252 阅读 · 0 评论 -
随机森林
引入Bagging算法中,通过bootstrapping得到不一样的数据,通过这些数据送到一个基本算法之后,得到不同的g,最后对这些g取平均得到G;决策树算法中,通过递归方式建立子树,最终得到一棵完整的树。 这两种算法都有其鲜明的特点,决策树对于不同的数据相对会敏感一些,即其算法的variance很大,而Bagging的特点是通过投票和平均的方式来降低variance的效果。如果将这两种方法结合转载 2017-05-22 11:02:35 · 515 阅读 · 0 评论