- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 takahe模块运行问题解决方法
takahe模块用于多句子压缩任务,是文章Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression的具体实现。 github地址如下:takahe安装依赖networkx graphviz pygraphviz 最后一个库没有装上,但好像没有影响测试python example.py...
2018-07-31 22:07:59 226
原创 论文阅读:EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings
问题: 现有的关键词抽取系统普遍存在的问题包括:1)complex and slow 2)over-generation (i.e. extracting redundant keyphrases)资源: 1. 代码 https://github.com/swisscom/ai-research-keyphrase-extraction相关工作: 1. Unsupervised...
2018-07-26 16:56:16 3093
原创 论文阅读:Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression
作者: Florian Boudin and Emmanuel Morin 来源: 2013 NAACL-HLT 概述: 这篇文章扩展了Filippova (2010)’s word graph-based MSC方法,添加了一个re-reranking步骤,使得包含最多相关关键词的compression被选择出来。 资源: 1. 代码:https://github.com/boudi...
2018-07-25 21:34:22 1417
原创 Linux命令之wc命令
Linux wc命令用于统计指定文件中的字节数、字数、行数,并将统计结果显示输出。wc是word count的缩写,即统计单词数。 命令语法:wc [OPTION]...[FILE]...命令参数:-c 统计字节数-l 统计行数-m 统计字符数。该参数不能与-c一起使用-w 统计字数。一个字被定义为由空白、跳格或换行字符分隔的字符串-L 打印最长行的长度...
2018-07-18 16:03:59 4959
原创 Linux命令之head命令
命令格式:head [OPTION] [FILE]head命令默认打印文件开头10行 命令参数:-q 隐藏文件名-v 显示文件名-c<字节> 显示字节数-n<行数> 显示行数使用示例:显示文件的前一行显示文件前10个字节head -c 10 vectors.200.f.bin显示除了开头100个字符以外的内容he...
2018-07-18 15:56:01 2634
原创 中文分词工具包jieba安装时自定义tmp_dir
在服务器上个人目录下配置的python2.7环境下安装了jieba包,安装完成后为了进行测试,运行了下列程序:import jiebaimport jieba.analysefrom optparse import OptionParserfile_name = "/home/shirveon/keyword_extractor/7chinese.txt"content = open(...
2018-07-11 21:47:31 3238
原创 Python中site-packages和dist-packages区别
sudo apt-get install安装的package存放在/usr/lib/python2.7/dist-packages目录中 pip(对应系统安装的python)或者easy_install(对应系统安装的python)安装的package存放在/usr/local/lib/python2.7/dist-packages目录 手动从源代码安装(使用系统安装python)的packa...
2018-07-07 10:31:41 5950
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人