文档分割和文档词向量化的几种实现方式

        即前一篇文章,基于gensim实现文档词向量化之外。本文主要基于大模型,或调用大模型API实现文档的分割和文档词的向量化,类似于word2vec机制,大家在未来做相关分析、情感分析、文字生成、智能推荐等方面,都需要先将已管理的文档进行分割和向量化,文本分割是为了将大的篇幅变短,变为以核心关键词为主的list,向量化是将关键词组合的文档进行矢量化表征,目的是为了借助计算机实现数学方面的运算处理。目前基于大模型主要有以下三种方式实现向量化。

  • HuggingFace 中开源模型下载和本地部署,通过本地化部署调用生成 embedding,可自定义合适的模型,可玩性较高,但对本地的资源要求高,部署环境要求高。
  • zhupiai/openAI 在线模型API调用,但需要消耗 api,通过在线模型API来生成 embedding,对于大量的token 来说成本会比较高,本地配置要求比较低,使用非常方便。
  • 采用其他平台的 api,如文心一言等。对于无法获取 openAI key 情况下,推荐采纳这种方法。
    具体环境和应用示例如下,供大家学习参考。
一、运行环境:

python3.10环境,安装了sklearn、unstructured、PyMuPDFLoader、zhipuai、openai等。

二、应用示例:

实现多段文本的自动分词,之后基于本地大模型或者调用在线大模型API实现关键词的矢量化。完整代码如下。
1.文档分割

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一望无际的大草原

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值