文本向量化java源码_瑞士小哥开源文本英雄Texthero:一行代码完成数据预处理,网友:早用早下班!...

向量空间分析

聚类(K均值,Meanshift,DBSAN和Hierarchical),主题建模(LDA和LSI)和解释。

01879d65552572f77bfaf597083960bc.png

文本可视化

一行代码即可完成关键字可视化,向量空间可视化等。

52f66cdd9b78cd3b433220666ae2f497.png

不仅功能强大速度还超快!

有网友怀疑融合了这么多的功能,速度一定有所下降。

而真相是:Texthero 相当快。

Texthero 使用了许多其他库,因此它的速度在很大程度上受到依赖库的影响。

但是对于文本预处理: 基本上就是 Pandas (在内存中使用 NumPy)和 Regex,速度非常快。 对于tokenize,默认的 Texthero 函数是一个简单但功能强大的 Regex 命令,这比大多数 NLTK 和 SpaCy 的tokenize快,因为它不使用任何花哨的模型,缺点是没有 SpaCy 那样精确。

841625548869dee315b233cf25ae31a2.gif

对于文本表示: TF-IDF 和 Count底层使用 sklearn 进行计算,因此它和 sklearn 一样快。 嵌入是预先计算加载的,因此没有训练过程。词性标注和 NER 是用 SpaCy 实现的。众所周知,SpaCy 是同类自然语言处理中最快的,它也是工业界使用最多的。

网友:恨不生同时,早用早下班!

作者Jonathan Besomi是一个瑞士的NLP工程师。Texthero开源之后,他也在Reddit耐心回答了网友提问。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值