自然语言处理
文章平均质量分 70
Starry memory
硕士毕业算法工程师在岗
展开
-
语义匹配技术
语义匹配原创 2023-02-06 19:49:23 · 147 阅读 · 0 评论 -
word2vec
显然,这是将词编码为向量的模型。在这个模型之前,有词袋模型,但是词袋模型没有考虑语法和语序的问题。案例如下:两个句子:I like to do it.I like you.我们建立词袋[I, like, to, do, it, you]然后按照每个句子中词的出现次数,我们将不同的句子表示为两个向量。[2,2,1,1,1,0][2,2,0,0,0,1]但是显然这样做事不合理的。...原创 2020-12-28 17:22:20 · 212 阅读 · 0 评论 -
隐马尔可夫模型:hmmlearn库的使用
hmmlearn库的使用安装和使用hmmlearn 一共实现了三种HMM模型类,按照数据的观测状态是离散的还是连续的可以划分为两类。GaussianHMM (高斯HMM模型)和GMMHMM(混合高斯模型)是观测状态为连续的模型。 MultinomialHMM(多项式分布HMM模型)是观测状态为离散的模型。这三种算法都可以被用来估计模型的参数。Hmmlearn以前是scikit-learn项目中的一部分,现在已经是一个单独的python包,可以在安装好python的基础上,直接使用下述命令进行安装。p原创 2022-04-22 23:51:06 · 6807 阅读 · 10 评论 -
隐马尔可夫模型问题三:求最可能的隐藏状态序列
隐马尔可夫模型问题三求解求最可能的隐藏状态序列,主要是通过动态规划求解概率最大的路径(最优路径),即通过动态规划求解马尔科夫模型的预测问题,最优路径对应一个状态序列。求解这种问题,我们一般使用马尔科夫模型。已知模型λ=(A,B,π)\lambda = (A,B,\pi )λ=(A,B,π),并且A=[0.50.20.30.30.50.20.20.30.5]A = \left[ {\begin{matrix}{0.5}&{0.2}&{0.3}\\{0.3}&{0.5}&am原创 2022-03-27 18:23:21 · 1705 阅读 · 0 评论 -
隐马尔可夫模型问题二:模型参数求解
已知隐序列状态HMM模型解决学习问题,是在已知观测序列,估计模型参数λ=[A,B,π]\lambda = [{\bf{A,B,\pi }}]λ=[A,B,π],使得P(O∣λ)P(O|\lambda )P(O∣λ)最大。一般情况下,如果已知观测序列和隐藏序列,模型参数是比较容易求解的,但是对于仅仅已知观测序列,是否能求出模型参数是本节讨论的重点,主要解决方法是使用鲍姆-韦尔奇(Baum-Welch)算法。Baum-Welch算法原理对于给定观测序列,求解模型参数。我们将不可观测的状态数据表示为隐含数原创 2022-03-27 16:14:43 · 882 阅读 · 0 评论 -
隐马尔可夫模型基础介绍
具有顺序性的东西,都可以使用HMM模型。判断一个人是否去游乐园的概率。是否去游乐园是与天气有关的,例如晴天去游乐园的概率是大于雨天去游乐园的概率的。天晴状况之间是有转移概率的,我们记作为状态转移矩阵。HMM模型的三个参数:(1)初始隐藏状态概率(2)状态之间的转移概率(3)状态到观测状态的概率HMM模型解决的三个基本问题(1)给定一个观测序列,求这个观测序列的概率(前向算法,后向算法,直接求解法)。P(O∣λ)=∑IP(O,I∣λ)=∑i1,i2,⋯ ,iTπi1bi1(o1)ai1i2bi原创 2022-03-13 15:08:54 · 6053 阅读 · 2 评论 -
Pandas
pandas读.txt文件使用read_csv就行原创 2021-11-26 15:40:30 · 1136 阅读 · 1 评论 -
程序文件命名规范
命名文件命名文件可以按照时间来起名字,这样有利于排查问题import timetime.strftime("%Y%m%d %H:%M:%S")原创 2021-11-17 16:34:33 · 139 阅读 · 0 评论 -
DeepWalk
RandomWalk随机游走一项有名的应用即为谷歌的PageRank算法,DeepWalkDeepWalk是将RandomWalk和Word2Vec结合的思想。该算法主要分为随机游走和生成表示向量两个部分。首先利用随机游走算法(Random walk)从图中提取一些顶点序列;然后借助自然语言处理的思路,将生成的定点序列看作由单词组成的句子,所有的序列可以看作一个大的语料库(corpus),最有利用自然语言处理工具word2vec将每一个顶点表示为一个维度为d的向量。...原创 2021-10-25 16:52:57 · 39 阅读 · 0 评论 -
TextRank算法
TextRank算法来自于PageRank算法PageRank算法首先给每个网页一个PR值,由于PR值物理意义为一个网页被访问的概率,所以一般为1N\frac{1}{N}N1, 通常PR值的总和为1。这是一种迭代算法,PR值越大,表示网页的重要性越大。https://blog.csdn.net/u013007900/article/details/88961913PR(u)=∑v∈BuPR(v)L(v)P R(u)=\sum_{v \in B_{u}} \frac{P R(v)}{L(v)}原创 2021-01-07 17:56:13 · 1195 阅读 · 0 评论