关键词权重度量:TF-IDF算法原理及其Python实现

文章目录TFIDFTF-IDF与信息论 TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率) 是用于信息检索与文本挖掘的重要算法,其中TF用于度量关键词在文档中的重要性,IDF用于度量关键词在全文档中的重要性, 即文档中某关键词的...

2019-05-01 15:36:44

阅读数 195

评论数 0

PangRank算法原理及其Python实现

文章目录算法来源算法原理终止节点和陷阱节点终止节点陷阱节点解决思路算法不足算法实现 算法来源 早期搜索引擎采用分类目录的方法,通过人工进行网页分类,并整理出高质量的网页。 后来,随着网页的增多,人工分类已经不现实,此时期搜索引擎采用文本检索的方法,即计算用户检索的关键词与网页内容的相关度,返回所...

2019-04-28 20:44:10

阅读数 112

评论数 0

集成学习:梯度提升决策树(GBDT)

GBDT GBDT(Gradient Boosting Decision Tree),是一种迭代的决策树算法,该算法有多棵回归决策树组成,所有树的输出累加作为最终输出。 GBDT的核心在于,每一棵树学的是之前所有树输出和的残差(残差+预测值=真实值)。 ...

2019-04-21 12:40:25

阅读数 50

评论数 0

隐马尔可夫模型HMM(二):观测序列概率计算之直接计算法、前向算法和后向算法

HMM概率计算,即已知模型λ=(A,B,Π)\lambda=(A,B,\Pi)λ=(A,B,Π)和观测序列O=(o1,o2,⋯ ,oT)O = (o_1, o_2, \cdots, o_T)O=(o1​,o2​,⋯,oT​),计算模型λ\lambdaλ下观测序列...

2019-04-17 00:28:50

阅读数 135

评论数 0

隐马尔可夫模型HMM(四):状态预测之近似算法和维特比算法

一、近似算法 思想: 在时刻ttt选择该时刻最有可能出现的状态it∗i_t^*it∗​,从而得到状态序列I∗=(i1∗,i2∗,⋯ ,iT∗)I^* = (i_1^*, i_2^*, \cdots, i_T^*)I∗=(i1∗​,i2∗​,⋯,iT∗​)作为预测...

2019-04-17 00:21:21

阅读数 181

评论数 0

隐马尔可夫模型HMM(三):学习算法之极大似然估计和EM算法

HMM的学习,根据训练数据是包括观测序列和对应的状态序列,还是仅有观测序列,可分别由监督学习和非监督学习实现。 一、监督学习方法 已知SSS个长度相同的观测序列和对应的状态序列{(O1,I1),⋯ ,(Os,Is)}\{(O_1, I_1), \cdots, (...

2019-04-16 22:17:03

阅读数 206

评论数 0

隐马尔可夫模型HMM(一):基本概念

HMM定义 隐马尔可夫模型(Hidden Markov Model,HMM),描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。 隐藏的马尔可夫链生成的不可观测的状态随机序列,称为状态序列。每一个状态可生成一个观测,各个状态产生的随机序列,...

2019-04-15 22:43:48

阅读数 102

评论数 0

集成学习:自适应提升算法(AdaBoost)

提升算法 通过反复学习(改变样本权重)得到多个弱分类器,组合这些弱分类器得到强分类器,如下: G(x)=sign[∑m=1MαmGm(x)]G(\bm x)= \text{sign}\left[\sum_{m=1}^M \alpha_mG_m(\bm x)\right]G(x)=sign[m=...

2019-04-13 15:42:54

阅读数 52

评论数 0

最大熵模型(Maximum Entropy Model)

二、最大熵思想 假设输入实例x∈Rn\bm x\in\R^nx∈Rn,类别y∈{c1,c2,⋯ ,cK}y\in\{c_1, c_2, \cdots, c_K\}y∈{c1​,c2​,⋯,cK​},若判别式模型P(y∣x)...

2018-12-18 20:18:05

阅读数 119

评论数 0

信息论基本概念之信息量、信息熵、条件熵、互信息、相对熵和交叉熵等

一、信息量 信息量的度量就等于不确定性的多少,信息量和事件发生的概率有关,事件发生的概率越小,信息量越大。 定义事件XXX的信息量是I(X)I(X)I(X),由于观察两个独立事件同时发生时获得的信息量等于观察到事件各自发生时获得的信息量之和,即 I(X,Y)=I(X)+I(Y)I(X, Y)=I(...

2018-12-14 00:39:30

阅读数 311

评论数 0

朴素贝叶斯分类算法的原理及其python实现

朴树贝叶斯的原理与分类实现 模型描述 假设XXX是定义在输入空间X∈Rn{\mathcal X}\in \R^nX∈Rn上的随机向量,YYY是定义在输出空间Y={c1,c2,⋯&ThinSpac...

2018-12-10 16:56:25

阅读数 813

评论数 0

Numpy多维数组的介绍及其常用属性和操作方法

1、数组运算 数组运算的注意事项: 当使用不同类型的数组操作时,结果数组的类型对应于更一般或更精确的数组,即向上转换,因此不能对低精度的数组元素赋高精度的值; 基本的算术、逻辑、位以及比较运算,需要创建新数组,并填充结果; 复合运算符,如+=,为就地修改原数组,因此操作符右值不能是高精度的数据;...

2018-11-27 16:14:44

阅读数 78

评论数 0

Numpy数组的取整及类型转换:ceil, floor, trunc, rint, around等

Numpy取整函数ceil、floor、trunc、rint、around

2018-11-27 16:13:24

阅读数 1707

评论数 0

Numpy数组的排序与选择:sort, argsort, partition, argpartition, searchsorted, lexsort等

Numpy排序与选择函数sort, argsort, partition, argpartition, searchsorted, lexsort

2018-11-27 15:23:25

阅读数 333

评论数 0

Numpy多维数组的内存设计与实现原理

ndarray的内存实现原理、切片索引的视图原理

2018-11-26 22:42:04

阅读数 147

评论数 0

Numpy结构化数组的创建、索引与分配

本文主要介绍Numpy中结构体数组的创建、索引、分配

2018-11-26 16:14:04

阅读数 358

评论数 0

Numpy数组的创建、变形、拼接及拆分

1、数组创建 数组创建有多种方法,如 使用array函数从常规的python列表或元组中创建数组,其数据类型从python列表中的元素的类型推导生成; 使用arange, linespace等函数创建数字序列; 使用zeros, ones,empty等函数创建多维数组,数据类型默认为float6...

2018-11-25 22:25:24

阅读数 114

评论数 0

Numpy数组的索引与切片:取数组的特定行列

主要介绍numpy数组索引的方式,如切片索引、数组索引

2018-11-24 23:32:33

阅读数 3624

评论数 0

K近邻(KNN)算法、KD树及其python实现

knn、模型三要素、距离度量、k值选择、决策准则、kd树、python

2018-11-22 15:36:38

阅读数 1285

评论数 0

数据结构与算法:寻找数组第K大元素及其python实现

简单排序、多次查找、计数排序、快速排序、最小堆/优先级队列

2018-11-20 11:07:29

阅读数 80

评论数 0

提示
确定要删除当前文章?
取消 删除