向量空间分析
聚类(K均值,Meanshift,DBSAN和Hierarchical),主题建模(LDA和LSI)和解释。
文本可视化
一行代码即可完成关键字可视化,向量空间可视化等。
不仅功能强大速度还超快!
有网友怀疑融合了这么多的功能,速度一定有所下降。
而真相是:Texthero 相当快。
Texthero 使用了许多其他库,因此它的速度在很大程度上受到依赖库的影响。
但是对于文本预处理: 基本上就是 Pandas (在内存中使用 NumPy)和 Regex,速度非常快。 对于tokenize,默认的 Texthero 函数是一个简单但功能强大的 Regex 命令,这比大多数 NLTK 和 SpaCy 的tokenize快,因为它不使用任何花哨的模型,缺点是没有 SpaCy 那样精确。
对于文本表示: TF-IDF 和 Count底层使用 sklearn 进行计算,因此它和 sklearn 一样快。 嵌入是预先计算加载的,因此没有训练过程。词性标注和 NER 是用 SpaCy 实现的。众所周知,SpaCy 是同类自然语言处理中最快的,它也是工业界使用最多的。
网友:恨不生同时,早用早下班!
作者Jonathan Besomi是一个瑞士的NLP工程师。Texthero开源之后,他也在Reddit耐心回答了网友提问。