2018年07月_Shirveon

12月 08月 07月 06月 05月 04月

原创 takahe模块运行问题解决方法

takahe模块用于多句子压缩任务，是文章Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression的具体实现。 github地址如下：takahe安装依赖networkx graphviz pygraphviz 最后一个库没有装上，但好像没有影响测试python example.py...

2018-07-31 22:07:59 226

原创论文阅读：EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings

问题：现有的关键词抽取系统普遍存在的问题包括：1）complex and slow 2）over-generation (i.e. extracting redundant keyphrases)资源： 1. 代码 https://github.com/swisscom/ai-research-keyphrase-extraction相关工作： 1. Unsupervised...

2018-07-26 16:56:16 3093

原创论文阅读：Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression

作者： Florian Boudin and Emmanuel Morin 来源： 2013 NAACL-HLT 概述: 这篇文章扩展了Filippova (2010)’s word graph-based MSC方法，添加了一个re-reranking步骤，使得包含最多相关关键词的compression被选择出来。资源： 1. 代码：https://github.com/boudi...

2018-07-25 21:34:22 1417

原创 Linux命令之wc命令

Linux wc命令用于统计指定文件中的字节数、字数、行数，并将统计结果显示输出。wc是word count的缩写，即统计单词数。命令语法：wc [OPTION]...[FILE]...命令参数：-c 统计字节数-l 统计行数-m 统计字符数。该参数不能与-c一起使用-w 统计字数。一个字被定义为由空白、跳格或换行字符分隔的字符串-L 打印最长行的长度...

2018-07-18 16:03:59 4959

原创 Linux命令之head命令

命令格式：head [OPTION] [FILE]head命令默认打印文件开头10行命令参数：-q 隐藏文件名-v 显示文件名-c<字节> 显示字节数-n<行数> 显示行数使用示例：显示文件的前一行显示文件前10个字节head -c 10 vectors.200.f.bin显示除了开头100个字符以外的内容he...

2018-07-18 15:56:01 2634

原创中文分词工具包jieba安装时自定义tmp_dir

在服务器上个人目录下配置的python2.7环境下安装了jieba包，安装完成后为了进行测试，运行了下列程序：import jiebaimport jieba.analysefrom optparse import OptionParserfile_name = "/home/shirveon/keyword_extractor/7chinese.txt"content = open(...

2018-07-11 21:47:31 3238

原创 Python中site-packages和dist-packages区别

sudo apt-get install安装的package存放在/usr/lib/python2.7/dist-packages目录中 pip（对应系统安装的python）或者easy_install（对应系统安装的python）安装的package存放在/usr/local/lib/python2.7/dist-packages目录手动从源代码安装（使用系统安装python）的packa...

2018-07-07 10:31:41 5950

原创自然语言处理工具包spacy库安装

pip install -U spacypython -m spacy download en

2018-07-06 20:36:53 1547

统计学习方法

统计学习是计算机及其应用领域的一门重要的学科。本书系统介绍了统计学习的主要方法。

2017-10-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人