自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 jieba分词学习

1 jieba中文分词简介中文分词是中文NLP的第一步,一个优秀的分词系统取决于足够的语料和完善的模型,很多机构和公司也都会开发和维护自己的分词系统。这里推荐的是一款完全开源、简单易用的分词工具,jieba中文分词。官网在这里,https://github.com/fxsjy/jieba 里面提供了详细的说明文档。虽然jieba分词的性能并不是最优秀的,但它开源免费、使用简单、功能丰富,并且支持多...

2018-06-15 00:44:40 681

原创 ROUGE评价算法学习

      ROUGE(Recall-Oriented Understudy for Gisting Evaluation),在2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方法,现被广泛应用于DUC(Document Understanding Conference)的摘要评测任务中。ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要,是一种面向n元词召回率的评价...

2018-06-15 00:38:30 6887 2

原创 ILP算法学习

基于整数线性规划(ILP)方法将摘要看做一个带约束的优化问题基于ILP进行求解,可采用现成的ILP求解工具同时进行句子抽取与冗余去除 python下ILP求解工具学习:    使用流程  我们解决线性规划问题一般是通过以下三个步骤。1.列出约束条件及目标函数2.画出约束条件所表示的可行域3.在可行域内求目标函数的最优解及最优值123  使用pulp工具包,我们只需要做第一步即可,使用pulp提...

2018-06-15 00:36:39 16209 2

原创 textteaser算法学习

今天简单来介绍和实现textteaser摘要算法:统计指标:1)句子长度,长度为某个长度的句子为最理想的长度,依照距离这个长度的远近来打分。2)句子位置,根据句子在全文中的位置,给出分数。(比如每段的第一句是核心句的比例大概是70%)3)句子关键词打分,文本进行预处理之后,按照词频统计出排名前10的关键词,通过比较句子中包含关键词的情况,以及关键词分布的情况来打分。     综合上述3步的打分做累...

2018-06-15 00:28:13 2420

原创 MMR算法学习

MMRMMR的全称为Maximal Marginal Relevance ,中文名字为最大边界相关法或者最大边缘相关。在MMR的公式是这样的,截图来自http://www.cnblogs.com/little-horse/p/7191287.html由于我们算的是自动摘要,所以主要看下面的公式。左边的score计算的是句子的重要性分值,右边的计算的是句子与所有已经被选择成为摘要的句子之间的相似度最...

2018-06-15 00:23:18 11534

原创 TF-IDF算法学习

在了解了lexrank算法之后,发现要去掌握tf-idf算法:用统计学语言表达,就是在词频的基础上,要对每个词分配一个"重要性"权重。最常见的词("的"、"是"、"在")给予最小的权重,较常见的词给予较小的权重,较少见的词给予较大的权重。这个权重叫做"逆文档频率"(Inverse Document Frequency,缩写为IDF),它的大小与一个词的常见程度成反比。知道了"词频"(TF)

2018-06-15 00:21:34 394

原创 Lexrank学习

Lexrank句子Si与Sj之间的相似度使用余弦相似度作为相似度计算方式,如图所示:

2018-06-15 00:17:40 5644

原创 Textrank学习

TextRankTextRank 公式在 PageRank 公式的基础上,为图中的边引入了权值的概念:WS(Vi)=(1−d)+d⋅∑Vj∈In(Vi)wji∑Vk∈Out(Vj)wjkWS(Vj)WS(Vi)=(1−d)+d⋅∑Vj∈In(Vi)wji∑Vk∈Out(Vj)wjkWS(Vj)wijwij 就是是为图中节点 ViVi 到 VjVj 的边的权值 。dd 依然为阻尼系数,代表从图中某一...

2018-06-14 23:21:23 1097

原创 pagerank 算法学习

背景pageRank 是Google CEO 拉里佩奇提出的一种算法,来计算互联网里的网站的重要性,以对搜索进行排名。pagerank 基本思想数量假设:一个页面越被其他页面链接,说明他越重要(ps:难怪好多技术博客的都互相链接

2018-06-14 23:18:50 349

原创 自动文本摘要学习

自动文本摘要是自然语言处理中一个比较难的任务。新闻的摘要要求编辑能够从新闻事件中提取出最关键的信息点,然后重新组织语言进行描述;一般论文的摘要要求作者先表述清楚问题,对前人工作中不完善的地方进行总结,然后用更凝练的语言描述自己的工作;综述性质的论文要求作者通读大量相关领域的工作,用最概括性的语言将每份工作的贡献、创新点写出来,并对每份工作的优缺点进行比较。本质上,文本摘要是一种信息过滤,输出的文本...

2018-06-14 22:46:23 3135

转载 深入浅出正则表达式

本文是Jan Goyvaerts为RegexBuddy写的教程的译文,版权归原作者所有,欢迎转载。但是为了尊重原作者和译者的劳动,请注明出处!谢谢!       1.什么是正则表达式基本说来,正则表达式是一种用来描述一定数量文本的模式。Regex代表Regular Express。本文将用>来表示一段具体的正则表达式。一段文本就是最基本的模式,简单的匹配相同的文

2017-09-29 20:00:53 4893

转载 TomCat在MAC下的安装运行

1,首先去官网http://tomcat.apache.org/ 下载最新的tomcat安装包ZIP 或者 tar.gz都可以,解压好之后 放到 /Library文件夹下面,觉得文件名字长的可以改个名,例如TomCat2,接着打开终端 输入sudo chmod 755 /Library/TomCat /bin/*.sh给予文件执行权限(按回车后会提示输密码,输入开机密码就行了)

2017-09-13 20:21:40 373

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除