自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Cython第一个程序

目前Python代码的执行过程是将Python代码转变成一行行指令,然后解释器解释指令的执行,调用到C代码层。如果去掉指令解释这个阶段,直接进入C代码层,效率就比较高了。而Cython库正好符合这种场景需求,将已有的Python代码转化为C语言的代码,并作为Python的built-in模块扩展。Python的文件类型介绍:.py python的源代码文件 .pyc ...

2018-09-04 09:44:37 357

原创 SVD分解

定义设有m×nm×nm\times n的矩阵AA\mathbf{A},那么SVD就是要将AA\mathbf{A}分解为3个矩阵的乘积: Am×n=Um×mΣm×nVTn×nAm×n=Um×mΣm×nVn×nT\mathbf{A}_{m \times n} = \mathbf{U}_{m \times m} \mathbf{\Sigma}_{m \times n} \mathbf{V}_{n ...

2018-09-03 16:38:57 3047

原创 TF-IDF自动摘要

文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。”自动摘要”就是要找出那些包含信息最多的句子。句子的信息量用”关键词”来衡量。如果包含的关键词越多,就说明这个句子越重要。Luhn提出用”簇”(cluster)表示关键词的聚集。所谓”簇”就是包含多个关键词的句子片段。只要关键词之间的距离小于”门槛值”,它们就被认为处于同一个簇之中。Luhn建议的门槛值是4或5。也就是说...

2018-09-03 14:57:44 932

原创 TF-IDF与余弦相似性的应用:找出相似文章

为了找出相似的文章,需要用到”余弦相似性”(cosine similiarity)。下面,我举一个例子来说明,什么是”余弦相似性”。 如果两句话用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度。 1. 分词 2. 列出所有的词 3. 计算词频 4. 写出词频向量 到这里,问题就变成了计算这两个向量的相似程度。可以通过夹角的大小,来判断向量的相似程度 cos...

2018-09-03 14:32:45 180

原创 TF_IDF:自动提取关键词

简介有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预。 一个容易想到的思路,就是找到出现次数最多的词。如果某个词很重要,它应该在这篇文章中多次出现。于是,我们进行”词频”(Term Frequency,缩写为TF)统计。设计流程结果你肯定猜到了,出现次数最多的词是”的”、”是”、”在”—-这一类最常用...

2018-09-03 14:15:19 256

原创 Manjaro Linux+Windows 10双系统安装

aur/acroread Adobe Acrobat Reader aur/acroread-fonts Fonts for Adobe Acrobat Reader texlive-most aur/typora Markdown aur/netease-cloud-music aur/fcitx-sogoupinyin texstudio ...

2018-09-02 14:18:08 4885

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除