![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
suibianshen2012
这个作者很懒,什么都没留下…
展开
-
self-attention为什么要除以根号d_k
一、因为softmax的输入很大时,其梯度会变的很小,趋近于0;二、除以根号Dk的目的就是使得,QK/Dk满足方差稳定到1,使得softmax的梯度不至于太小原创 2021-12-25 11:53:01 · 13164 阅读 · 3 评论 -
python 结巴分词(jieba)学习
转自:http://www.gowhich.com/blog/147源码下载的地址:https://github.com/fxsjy/jieba演示地址:http://jiebademo.ap01.aws.af.cm/特点1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析; b,全模式,把句子中所有的可以成词的词语转载 2016-12-06 18:51:12 · 1168 阅读 · 0 评论 -
Python 文本挖掘:jieba中文分词和词性标注
转自:http://rzcoding.blog.163.com/blog/static/222281017201310155331241/jieba 分词:做最好的Python 中文分词组件。这是结巴分词的目标,我相信它也做到了。操作简单,速度快,精度不错。而且是Python 的库,这样就不用调用中科院分词ICTCLAS了。妈妈再也不用担心我不会分词啦。jieba转载 2016-12-06 15:18:15 · 6230 阅读 · 0 评论 -
jieba(结巴)分词种词性简介
jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下:Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码 a和副词代原创 2016-12-06 15:13:32 · 34983 阅读 · 0 评论 -
文本分类与SVM
1、基础知识1. 1 样本整理文本分类属于有监督的学习,所以需要整理样本。根据业务需求,确定样本标签与数目,其中样本标签多为整数。在svm中其中如果为二分类,样本标签一般会设定为-1和1,而在朴素贝叶斯方法中,一般为0和1,但不是固定的,标签的设置和算法本身的性质有关的。如下面的整理的样本,1为正类,-1为反类(为了能便于展示,这里使用了一些即时聊天工具中的文本,里面的一些转载 2016-06-08 15:20:19 · 4431 阅读 · 0 评论 -
基于用户的协同过滤和基于物品的协同过滤推荐算法原理和实现
在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最转载 2016-06-21 20:56:09 · 5903 阅读 · 0 评论 -
机器学习-KMeans聚类 K值以及初始类簇中心点的选取
KMeans算法是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类簇中心点的变化很小,或者达到指定的迭代次数。 KMeans算法本身思想比较简单,但是合理的确定K值和K个初始转载 2016-06-04 15:25:10 · 21900 阅读 · 1 评论 -
用朴素贝叶斯进行文本分类(上)
1. 引言贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。2. 贝叶斯公式贝叶斯公式就一行:P ( Y | X ) = P ( X | Y ) P ( Y ) P ( X )而它其实是由以下的联合概率公式推导出转载 2016-06-08 15:57:30 · 4714 阅读 · 0 评论 -
Apriori算法简介---关联规则的频繁项集算法
由啤酒和尿布引出:在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来转载 2016-05-29 11:10:23 · 67694 阅读 · 3 评论 -
余弦相似性:找出相似文章
上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手转载 2016-04-28 10:34:53 · 4089 阅读 · 0 评论 -
TF-IDF算法:自动提取关键字
有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以理解,这就是我今天想要介绍的TF-IDF算法。转载 2016-04-28 10:21:30 · 1525 阅读 · 0 评论 -
数据挖掘十大经典算法之:决策树C4.5 分类算法
C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点:用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度度量准则),也就是熵的变化值,而C4.5用的是信息增益率。在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可转载 2015-09-21 16:54:56 · 2106 阅读 · 0 评论 -
数据挖掘十大经典算法:ID3算法
用途:The ID3 algorithm is used by training on a dataset to produce adecision tree which is stored in memory. At runtime, this decision tree is used to classify new unseen test cases by working do转载 2015-09-19 10:59:33 · 4162 阅读 · 0 评论