数据挖掘
chenglansky
这个作者很懒,什么都没留下…
展开
-
聚类分析中的常见数据类型
(1)数据矩阵:用p个变量表示n个原创 2014-06-06 16:20:20 · 5822 阅读 · 0 评论 -
常用的机器学习&数据挖掘知识点
Basis(基础):MSE(Mean Square Error均方误差),LMS(LeastMean Square最小均方),LSM(Least Square Methods最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic Programming二次规划), CP(Conditional Probability条件概率)转载 2015-06-11 18:53:18 · 609 阅读 · 0 评论 -
网络挖掘技术——微博文本特征提取
http://dichild.com/?p=173转载来源文本特征向量经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过转载 2015-05-26 10:33:16 · 3544 阅读 · 0 评论 -
看懂信息检索和网络数据挖掘领域论文的必备知识总结
http://blog.csdn.net/xianlingmao/article/details/7667042信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本转载 2015-06-08 21:17:21 · 510 阅读 · 0 评论 -
文本挖掘技术笔记
我第一次接触自然语言处理还是研一的时候,当时我读的是那本经典书籍《数学之美》,之后我就对NLP/文本挖掘/IR方向兴趣比较大,所以也一直想毕业后去搜索相关公司。但是考虑到自己的基础水平,迟迟没有深入研究,其实主要原因是我一直在补计算机类基础知识呢,因为我是比较看重基础的,现在还差编译原理了,时间不够用了,也得感叹下,要学的知识太多了。前几天双11买了本《统计自然语言处理》,打算深入的研究下,所以这转载 2014-11-07 18:19:59 · 7418 阅读 · 0 评论 -
PCA的数学原理
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成转载 2014-06-22 14:42:37 · 554 阅读 · 0 评论 -
SVD奇异值分解
SVD分解SVD分解是LSA的数学基础,本文是我的LSA学习笔记的一部分,之所以单独拿出来,是因为 SVD可以说是LSA的基础,要理解LSA必须了解SVD,因此将LSA笔记的SVD一节单独作为一篇文章。本节讨论SVD分解相关数学问题,一个分为3 个部分,第一部分讨论线性代数中的一些基础知识,第二部分讨论SVD矩阵分解,第三部分讨论低阶近似。本节讨论的矩阵都是实数矩阵。基础知识1. 矩阵转载 2014-06-19 14:55:55 · 798 阅读 · 0 评论 -
经典的机器学习方面源代码库(非常全,数据挖掘,计算机视觉,模式识别,信息检索相关领域都适用的了)
1.机器学习开源软件网(收录了各种机器学习的各种编程语言学术与商业的开源软件)http://mloss.org2 偶尔找到的机器学习资源网:(也非常全,1和2基本收录了所有ML的经典开源软件了)http://www.dmoz.org/Computers/Artificial_Intelligence/Machine_Learning/Software/3 libsv转载 2014-07-03 17:18:11 · 1155 阅读 · 0 评论 -
bootstrap, boosting, bagging 几种方法的联系
这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,没找到博客作者的地址,在这里致谢作者的研究。一并列出一些找到的介绍boosting算法的资源:(1)视频讲义,介绍boosting算法,主要介绍AdaBoosing http://转载 2014-06-13 09:28:02 · 611 阅读 · 0 评论 -
聚类分析算法
聚类算法应用广泛:模式识别,数据分析,图像识别及其他许多方面。原创 2014-06-09 10:31:05 · 980 阅读 · 0 评论 -
fudanNLP-使用
分类: NLP2014-03-20 13:01 69人阅读 评论(0) 收藏 举报中文实体抽取-fudanNLP1.input and outputA)中文分词:InputStr = "媒体计算研究所成立了, 高级数据挖掘很难。 乐phone热卖!";Dictionary = {"数据挖掘","媒体计算研究所","乐phone"};OutputStr1 = "媒转载 2014-06-29 21:09:33 · 3059 阅读 · 1 评论 -
Python数据科学技术详解与商业实践 -读书笔记 一
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2019-04-27 18:23:07 · 735 阅读 · 0 评论