自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

丘文波的自然语言处理学习

将平时工作中使用到的NLP相关的知识进行总结记录

  • 博客(8)
  • 收藏
  • 关注

原创 你知道es是如何计算相似度得分的吗?

你知道es是如何计算相似度得分的吗?1.es中相似度计算公式-BM256.x版本和7.x 版本的es的默认得分计算方式都是BM25。假如用户给定一个输入QQQ,其包含了关键字q1,q2,......qn,q_1,q_2,... ... q_n,q1​,q2​,......qn​,那么该输入QQQ与文档DDD的BM25得分为:score⁡(D,Q)=∑i=1nIDF⁡(qi)⋅f(qi,D)⋅(k1+1)f(qi,D)+k1⋅(1−b+b⋅∣D∣avgdl⁡)\operatorname{score}

2022-01-19 15:59:54 4984 2

原创 linux 环境下matplotlib 画图时不支持中文解决方案

linux 环境下matplotlib 画图时不支持中文解决方案1. 代码上设置一下你需要使用的代码import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] # 使用黑体来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号如果通过上面的设置成功显示中文就最nice了,但如果上面设置之后,还是会报错Font family [

2021-08-23 16:31:32 1346 4

原创 《人格:更好得认识自己》读书笔记

这本书不是要改变你的人格,而是说要理解你的人格里包含了什么,怎么利用这些信息做出明智的选择。这就需要很多东西,其中就包括自知。如果本书帮你多了解一点这些宝贵的东西,那写这本书就是值得的。1.人格特质的定义什么是人格特质:针对特定情景形成了各种心理机制反应,个体在这些心理机制的活跃程度上表现出来的稳定差异就是人格特质。人类进化已经为我们装备了一套细致的心理机制,可以用来解决我们的祖先反复面临的适应问题。因此,我们有让我们规避危险的恐惧机制,有让我们择偶并与之交配的吸引和激励机制,有让我们识别有益的联.

2021-06-12 09:36:42 405

原创 《大五人格心理学》读书笔记

这本书介绍了一下职场中的大五人格,具有不同人格特质的人适合干不同的工作,了解自己的人格特质,有利于自己的职业规划。了解同事的人格特质,有利于合作。1.宜人性宜人性的心声:这对他人有什么影响VS.这对我有什么价值宜人性的子维度:同理心(经常试着理解别人)、信任(倾向于相信别人)、利他(把别人的利益放在首位)2.尽责性尽责性的心声:照规矩计划来VS.随意点,顺其自然尽责性的子维度:条理性:做事有条不紊,遵循规则精确性:重视准确、精确,基于事实做出判断责任感:愿意承担个人的责任.

2021-06-12 09:33:13 718

原创 论文解读-SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

1.论文摘要该论文是在 ICLR 2017提出的一个无监督的句子嵌入的方法:使用维基百科等无标签的语料训练得到词向量,然后通过词向量加权平均获得句子表征向量。然后使用PCA/SVD再对句向量进行一次修正得到最终得句向量。2. 计算句子表征的算法先来看下论文中提出的句子表征的算法:上面的算法过程中有两个重点:• 为什么可以通过句子中的单词向量加权平均来获得句子初始的向量的表征?(公式(1)) • 为什么得到句子的初始向量之后要做一个修正(公式(2))论文围绕着这两个问题进行了解答。3. 随机

2021-06-10 14:36:44 281

原创 PCA-3 通过奇异值分解来求主成分

这篇读书笔记介绍一下如何通过奇异值分解来求解样本主成分1. 问题的变形样本XXX的主成分求解,归结于求样本矩阵XXX的协方差矩阵 SXS_{X}SX​ 的特征值和对应的单位特征向量。其中SX=1n−1XXTS_{X}=\frac{1}{n-1} X X^{\mathrm{T}}SX​=n−11​XXT令:X′=1n−1XTX^{\prime}=\frac{1}{\sqrt{n-1}} X^{\mathrm{T}}X′=n−1​1​XT则:SX=X′TX′S_{X}=X^{\pri.

2021-06-10 14:31:04 125

原创 PCA-2 主成分与协方差矩阵的关系

PCA-2 主成分与协方差矩阵的关系1. 样本协方差矩阵1.1 样本矩阵假设对m维随机变量x=(x1,x2,⋯ ,xm)T\boldsymbol{x}=\left(x_{1}, x_{2}, \cdots, x_{m}\right)^{\mathrm{T}}x=(x1​,x2​,⋯,xm​)T进行n次独立观测,x_1,x_2,⋯ ,x_nx\_1, x\_2, \cdots, x\_nx_1,x_2,⋯,x_n表示观测样本,其中x_j=(x1j,x2j,⋯ ,xmj)Tx\_j=\left(x_{1

2021-06-10 14:27:17 532

原创 PCA-1 主成分分析--主成分

PCA 主成分分析–主成分主成分分析(principal component analysis,PCA ) 是一种的常见的无监督学习方法,这一方法利用正交变换把由线性相关变量表示的观测数据转换为少数几个有线性无关变量表示的数据。这些线性无关的变量被称为主成分,主成分的个数通常小于原始变量。所以主成分是观测数据(样本)的,不同的观测数据(样本)的主成分是不一样的。可以理解成观测数据的另外一个维度。1. PCA的定义(主要介绍样本主成分)考虑由m维随机变量x=[x1x2⋯xm]⊤x=\left[

2021-06-10 14:13:37 628

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除