数据挖掘
红豆和绿豆
这个作者很懒,什么都没留下…
展开
-
机器学习视频总结
卷积神经网络B站最近火到爆炸的大佬之一吴恩达【深度学习】-CNN卷积神经网络_哔哩哔哩_bilibili深度学习吴恩达深度学习-哔哩哔哩_bilibili7. 07 - 1.6Geoffrey Hinton访谈(选修)_哔哩哔哩_bilibili序列模型deeplearning.ai - 网易云课堂LLM大语言模型【大模型入门课】吴恩达—基于 LLM 的生成式人工智能【中英字幕】_哔哩哔哩_bilibili机器学习的数学基础:[中英字幕]吴恩达机器学习系列课程-8-3.模型展示Ⅰ-网易公开课原创 2024-06-04 08:52:46 · 118 阅读 · 0 评论 -
数据分析和数据挖掘
(二)有同学整理了极客时间的学习。(一)整个知识付费还是很值得的。(三)自己还在梳理中。原创 2024-03-29 09:07:25 · 157 阅读 · 0 评论 -
文本挖掘分类算法--BP神经网络的一个具体的案例
原创 2016-02-28 14:11:48 · 4034 阅读 · 1 评论 -
聚类的评估
1、估计聚类趋势2、确定聚类的个数3、评估聚类的质量原创 2016-03-07 14:30:21 · 997 阅读 · 0 评论 -
R语言与非参数统计(核密度估计)
R语言与非参数统计(核密度估计)核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。 假设我们有n个数X1-Xn,我们要计算某一个数X的概率密度有多大。核密度估计的方法是这样的:转载 2016-03-07 11:08:37 · 16863 阅读 · 1 评论 -
聚类算法之概率密度函数 optics
1 什么是OPTICS算法在前面介绍的DBSCAN算法中,有两个初始参数E(邻域半径)和minPts(E邻域最小点数)需要用户手动设置输入,并且聚类的类簇结果对这两个参数的取值非常敏感,不同的取值将产生不同的聚类结果,其实这也是大多数其他需要初始化参数聚类算法的弊端。为了克服DBSCAN算法这一缺点,提出了OPTICS算法(Ordering Points to identif转载 2016-03-07 09:11:19 · 5085 阅读 · 2 评论 -
聚类算法之密度聚类算法DBSCAN
DBSCAN算法的流程:原创 2016-03-06 19:24:20 · 11275 阅读 · 0 评论 -
层次概率聚类算法
原创 2016-03-06 14:55:48 · 2034 阅读 · 0 评论 -
机器学习问题方法总结
大类名称关键词有监督分类决策树信息增益分类回归树Gini指数,Χ2统计量,剪枝朴素贝叶斯非参数估计,贝叶斯估计线性判别分析Fishre判别,特征向量求解K最邻近相似度度量:欧氏距离、街区距离、编辑距离、向转载 2016-03-06 10:53:45 · 489 阅读 · 0 评论 -
高斯混合模型(GMM)实现和可视化
版权声明:作者:金良(golden1314521@gmail.com) csdn博客: http://blog.csdn.net/u012176591目录(?)[+]高斯分布公式及图像示例高斯分布概率密度热力图高斯混合模型实现代码高斯混合模型聚簇效果图参考文献作者:金良(golden1314521@gmail.co转载 2016-03-06 10:49:08 · 6019 阅读 · 1 评论 -
层次聚类之高斯混合模型聚类算法原理的介绍
单高斯分布模型GSM多维变量X服从高斯分布时,它的概率密度函数PDF为:x是维度为d的列向量,u是模型期望,Σ是模型方差。在实际应用中u通常用样本均值来代替,Σ通常用样本方差来代替。很容易判断一个样x本是否属于类别C。因为每个类别都有自己的u和Σ,把x代入(1)式,当概率大于一定阈值时我们就认为x属于C类。从几何上讲,单高斯分布模型在二维空间应该近似于椭圆,在三原创 2016-03-06 10:43:36 · 3121 阅读 · 0 评论 -
层次聚类之Chameleom(动态建模多阶段聚类)
算法介绍本篇文章讲述的还是聚类算法,也是属于层次聚类算法领域的,不过与上篇文章讲述的分裂实现聚类的方式不同,这次所讲的Chameleon算法是合并形成最终的聚类,恰巧相反。Chamelon的英文单词的意思是变色龙,所以这个算法又称之为变色龙算法,变色龙算法的过程如标题所描绘的那样,是分为2个主要阶段的,不过他可不是像BIRCH算法那样,是树的形式。继续看下面的原理介绍。算法原理转载 2016-03-05 11:24:54 · 2516 阅读 · 0 评论 -
层次聚类算法之BIRCH(聚类特征树的多阶段聚类)
聚类算法之BIRCH(Java实现)BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)天生就是为处理超大规模(至少要让你的内存容不下)的数据集而设计的,它可以在任何给定的内存下运行。关于BIRCH的更多特点先不介绍,我先讲一下算法的完整实现细节,对算法的实现过程搞清楚后再去看别人对该算法的评价才会感受深原创 2016-03-05 09:17:56 · 5097 阅读 · 0 评论 -
文本分类的算法的简单的介绍之支持向量机
http://www.cnblogs.com/LeftNotEasy/archive/2011/05/02/basic-of-svm.html1、支持向量机一、线性分类器: 首先给出一个非常非常简单的分类问题(线性可分),我们要用一条直线,将下图中黑色的点和白色的点分开,很显然,图上的这条直线就是我们要求的直线之一(可以有无数条这样的直线) 假如说,我们令黑转载 2016-02-28 09:44:11 · 3888 阅读 · 0 评论 -
文本分类算法之--KNN算法的简介
1、KNN算法的简介kNN算法就是找到k个最相似的样本,这些样本所在的类,就是当前文档的所属的类。如下图:绿色圆圈表示你想分类的文本,其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k = 3,就是取3个最相似的文本,那么1个蓝色框,2红色三角被选中,因为红色三角多,则绿色圆圈所属的类就是红色三角所在的类。如果k = 5,3个蓝色框和2个红色三角选中,那么就属于蓝色框所原创 2016-02-28 11:12:45 · 3516 阅读 · 0 评论 -
文本分类算法之--BP神经网络
神经网络文本分类器可采用一种三层前馈型网络,来进行自动知识获取,如图一所示。网络有三个基本层,即输入层、隐含层和输出层。每个层都包含若干个节点神经元,输入层的节点数通常为矢量的个数,输出层节点数为输出矢量的个数。层与层之间的每个连接都有一个可以调整的权,它决定一个输入矢量对输出矢量的影响。BP神经网络算法的介绍详细介绍每一个过程原创 2016-02-28 13:16:41 · 5872 阅读 · 0 评论 -
文本挖掘深度学习之word2vec的R语言实现
笔者寄语:2013年末,Google发布的 word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼“深度学习在自然语言领域开始发力 了”。基于word2vec现在还出现了doc2vec,word2vec相比传统,考虑单词上下文的语义;但是doc2vec不仅考虑了单词上下文的语义,还考虑了单词在段落中的顺序。如果想要了解word2vec的转载 2017-04-23 13:46:47 · 4266 阅读 · 0 评论 -
Canopy聚类算法
只有这个算法思想比较对,其他 的都没有一开始的remove: 原网址:http://www.shahuwang.com/?p=1021 Canopy Clustering 这个算法是2000年提出来的,此后与Hadoop配合,已经成为一个比较流行的算法了。确切的说,这个算法获得的并不是最终结果,它是为其他算法服务的,比如k-means算法。它能有效地降低k-means算法中计算点之间距离的转载 2017-03-09 09:43:22 · 1132 阅读 · 0 评论 -
5个好用的开源数据挖掘软件
5 of the Best Free and Open Source Data Mining SoftwareThe process of extracting patterns from data is called data mining. It is recognized as an essential tool by modern business since it is able转载 2017-03-03 13:11:09 · 1473 阅读 · 0 评论 -
【SPMF开源数据挖掘平台入门】MaxSP算法使用说明
前段时间,由于项目中用到了序列挖掘的算法,师兄推荐我用用SPMF。在此做个记录。 首先简单介绍一下SPMF:SPMF是一个采用Java开发的开源数据挖掘平台。它提供了51种数据挖掘算法实现,用于:序列模式挖掘,关联规则挖掘,frequent itemset 挖掘,顺序规则挖掘,聚类HOME PAGE:http://www.philippe-fournier-viger.转载 2017-03-03 13:00:02 · 5718 阅读 · 0 评论 -
SVM介绍
http://www.dataguru.cn/thread-371987-1-1.html前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但在描述数学公式的时候还是显得不够。转载 2017-01-14 15:56:23 · 697 阅读 · 0 评论 -
不同文本模型的选择之ROC曲线
原创 2016-02-29 09:07:28 · 1168 阅读 · 0 评论 -
文本分类模型的评估
首先创建一个混洗矩阵度量分类器模型主要考虑以下几个度量的公式如何更好的使用样本计算模型的准确率?(1)使用保持与随机二次抽样方法2、交叉验证3、自助法(就是有放回的抽样)原创 2016-02-29 08:45:17 · 2543 阅读 · 0 评论 -
Baye分类算法的介绍
1、Baye算法的介绍2、朴素贝叶斯3、使用朴素贝叶斯的一个简单的例子4、使用拉普拉斯平滑因子平滑原创 2016-02-28 15:54:11 · 762 阅读 · 0 评论 -
文本分类算法之-LMS神经网络算法的介绍
神经网络学习的梯度算法从感如器的学习算法可知,学习的目的是在于修改网络中的权系数,使到网络对于所输入的模式样本能正确分类。当学习结束时,也即神经网络能正确分类时,显然 权系数就反映了同类输人模式样本的共同特征。换句话讲,权系数就是存储了的输人模式。由于权系数是分散存在的,故神经网络自然而然就有分布存储的特点。前面的感知器的传递函数是阶跃函数,所以,它可以用作分类器。前面一节所讲的感转载 2016-02-28 15:09:02 · 2453 阅读 · 0 评论 -
文本分类算法之--单层感知器的神经网络
http://www.cnblogs.com/wengzilin/archive/2013/04/24/3041019.html一、感知器的学习结构感知器的学习是神经网络最典型的学习。目前,在控制上应用的是多层前馈网络,这是一种感知器模型,学习算法是BP法,故是有教师学习算法。一个有教师的学习系统可以用图1—7表示。这种学习系统分成三个部分:输入部,训练部和输出转载 2016-02-28 14:44:33 · 4572 阅读 · 0 评论 -
层次聚类的介绍
AGNES算法(自底向上层次聚类) AGNES(Agglomerative Nesting) 是凝聚的层次聚类算法,如果簇C1中的一个对象和簇C2中的一个对象之间的距离是所有属于不同簇的对象间欧式距离中最小的,C1和C2可能被合并。这是一种单连接方法,其每个簇可以被簇中的所有对象代表,两个簇之间的相似度由这两个簇中距离最近的数据点对的相似度来确定。原创 2016-03-04 20:43:12 · 21197 阅读 · 0 评论 -
文本挖掘之聚类算法之CLARANS(基于随机选择的聚类算法)
基于随机选择的聚类算法(CLARANS) CLARA NS是在CLA RA 算法的基础上提出来的.与CLA RA 不同.CLARA NS没有在任一给定的时间局限于任一样本.而是在搜索的每一步都带一定随机性的选取一个样本。CLARA NS的时间复杂度大约是O(n2).n是对象的数目。此方法的优点是一方面改进了CLA RA 的聚类质量.另一方面拓展了数据处理量的伸缩范围,具有较好的聚类原创 2016-03-04 19:52:19 · 5494 阅读 · 0 评论 -
将集合转成特征矩阵并且使用最小Hash算法构造签名矩阵
2、如何计算集合的最小hash值呢?主要也是通过特征矩阵的变换进行计算3、具体的使用最小hash算法,将一个特征矩阵进行压缩,即构造签名矩阵,签名矩阵的每一列是n个hash函数的值,并且近似估计原始数据的jaccard的值。实际中是如何计算的呢?(1)首先自己常见n个h(x)函数 ,并且计算出对于原始行的hash值(2)h(x)作用于每一行,如果当前的值为0,什么都不做原创 2016-01-11 18:31:25 · 4155 阅读 · 0 评论 -
文档的相似性可以使用Shingling算法进行比较
1、文档的相似性,可以将文档转化为集合,然后计算二个集合的交集,如果交集越大,则二个文档越相似,否则不相似。可以使用Jaccard=|S交T|/|S并T|2、可以使用shingling算法,将文档变成一个集合。k—shingle 就是将一个文档变成长度为k的字符串的集合,如果元素重复,则只保留一个。如果把集合看成包,就可以记载重复字符串出现的次数。对于k的选择时非常重要的原创 2016-01-11 18:29:57 · 5751 阅读 · 0 评论 -
文本挖掘的概述
以下的总结,都是自己凭借自己看一些文献,总结的。可能有理解偏差的地方。文本挖掘基本的步骤:(1)文本的预处理(2)文本的向量空间表示(VSM模型)(3)降维(4)计算权重(5)使用数据挖掘的算法进行模型的建立,或者聚类具体的介绍一下(1)文本的预处理主要涉及到文本的分词、去重。文本分词需要用到词库,因此词库的选择也是很重要的,大家可以选择中科院词库,哈工大的原创 2016-01-07 10:59:33 · 966 阅读 · 0 评论 -
MapReduce的矩阵乘法的原理
下面这个矩阵乘法,主要使用了二个MapReduce程序来完成。原创 2016-01-05 20:34:09 · 686 阅读 · 0 评论 -
使用MapReduce实现Bayes算法
代码如下:NBayes.conf4 cl1 cl2 cl3 cl43 p1 12 p2 16 p3 17NBayes.traincl1 5 6 7cl2 3 8 4cl1 2 5 2cl3 7 8 7cl4 3 8 2cl4 9 2 7cl2 1 8 5cl5 2 9 4cl3 10 3 4cl1 4 5 6cl3 4 6 7原创 2016-01-22 10:09:18 · 1527 阅读 · 1 评论 -
互联网大数据挖掘与处理
1、关于文本挖掘首先需要考虑的是词频TF IDFTF Term Frequency TFi=单词i在文档j出现的次数/单词k在文档j中出现的最大次数 主要实现单词i的规范化TF 表现出 一个词在一片文档中出现的次数越多,则越重要。IDF 主要的意思就是,如果一个单词在多篇文档中出现则显得不那么重要IDF=log2(N/ni)N 是所有文档的总数 ni是出现单词i的文档原创 2016-01-05 13:33:31 · 856 阅读 · 0 评论 -
贝叶斯算法与朴素贝叶斯算法的介绍
原创 2016-01-21 14:29:10 · 674 阅读 · 0 评论 -
使用MapReduce实现knn算法
算法的流程(1)首先将训练集以共享文件的方式分发到各个map节点(2)每一个map节点主要> LongWritable 主要就是文件的偏移地址,保证唯一。ListWritable主要就是最近的类别。Reduce节点主要计算出,每一个要预测节点的类别。package knn;public class Distance {public static double E原创 2016-01-21 13:49:12 · 4201 阅读 · 3 评论 -
knn算法的介绍
原创 2016-01-21 13:22:48 · 622 阅读 · 0 评论 -
使用MapReduce实现k-means算法
主要的算法流程就是:(1)随机选择k个点,放到磁盘上供个个点进行共享(2)每一个map读取中心点,每一条及记录找到最近的Cluster,发出的记录是,Reduce的功能就是重新计算新的k均值,b原创 2016-01-21 10:58:43 · 6264 阅读 · 0 评论 -
K-means算法的介绍
1、介绍一下聚类聚类就是类的内部相似,类间不相似聚类的算法一般包括:划分聚类算法,层次聚类算法,基于密度聚类,基于网格聚类算法。每一中算法中都包含狠多的具体算法。基于划分聚类算法包括:k-均值,k-众数,PAM (k中心点),CLARA,CLARANS算法等等现在主要就是看一下整个算法的流程:该算法是有缺点的1、K是很难确定的2、容易受噪声点的干扰整个算原创 2016-01-18 20:39:22 · 934 阅读 · 0 评论 -
LSH局部敏感哈希的介绍
判断文档相似度的完整的方法:(5)使用LSH技术构建候选对的过程如下:原创 2016-01-12 10:31:46 · 491 阅读 · 0 评论