文本向量化java源码,README.md

## Deep Text

### 简介

Deep Text是一个基于Tensorflow的NLP算法深度学习模型集成库,包含文本分类,序列标注,文本匹配,文本向量化,文本生成,OCR等多种算法实现,目前实现了部分基本深度学习NLP算法。后续会增加更多算法模型的实现,并准备提供Java版的模型预测调用接口。

### 版本

当前版本 1.3.7

tensorflow 1.8+

### 已实现模型

- TextCNN(文本分类,支持多标签)

- TextRNN(文本分类,支持多标签)

- BiGRU+CRF(文本序列标注)

- Skip-thoughts(生成句子向量)

- CDSSM(文本匹配模型)

- CNN+BLSTM+CTC(OCR文字识别)

### 工程结构

```

.

├── common 基础类&工具类

├── deepcls 分类算法模型

├── deepcrf 序列标注

├── deepemb 句子向量

├── deeplm 语言模型

├── deepmatch 文本匹配模型

└── deepocr OCR

```

Deep Text项目里将算法模型分为配置生成、数据读取转换(transform)、训练(train)、模型(model)和预测(graph model)几个部分,每个算法模型都如此实现,数据读取部分提供默认实现,支持实现自定义数据格式的读取。

### 安装

源码安装:

```

git clone https://gitee.com/wangsihong/deep-text.git

python setup.py install

```

pip安装:

```

pip install deep-text

```

### 生成配置文件

model name :

- "deepcrf" or "deep-crf"

- "textcnn" or "clscnn"

- "textrnn" or "clsrnn"

- "lm" or "deeplm"

- "cdssm" or "cdssm"

- "skip-thought" or "stemb"

- "deepocr" or "lstm-ctc"

```

deeptext_gen_config -m -o

```

### 模型训练

命令基本格式如下:

> ```

> -t --train 训练数据文件

> -e --eval 测试数据文件

> -c --config 配置文件(不同模型的配置文件不同)

> -m --model 模型保存文件名

> -f 执行数据读取&转换

> -w 预训练词向量

> ```

> [model option] 用来区分分类具体要使用的模型,目前只有在文本分类模型中使用。

> ```

> cnn TextCNN

> rnn TextRNN

> cnn_m TextCNN(多标签分类)

> rnn_m TextRNN(多标签分类)

> ```

```

deepxxxx_learn [model option] -t -e -c -m [-f -w ]

```

模型训练完会保存成模型文件,也可以通过tensorflow的checkpoint保存模型

```

deepxxxx_save -p -c -m

```

### 模型调用

> 模型预测代码实现在各模块的model.py中,预测类命名方式为GraphXXXXXModel(model_file, config_file)

> 以下是几个使用python调用模型预测的例子:

TextCNN:

```

from deepcls import GraphTextCNNModel

from common import config_ops

#load model

config = config_ops.load_config(config_file_path)

model = GraphTextCNNModel(model_path, config)

## predict

ret = model.predict([text], 10)

```

TextRNN:

```

from deepcls import GraphTextRNNModel

from common import config_ops

#load model

config = config_ops.load_config(config_file_path)

model = GraphTextRNNModel(model_path, config)

#predict

rets = model.predict([text], 10)

```

DeepCRF:

```

from common.config_ops import load_config

from deepcrf.model import GraphDeepCRFModel

#load model

config = load_config(config_path)

model = GraphDeepCRFModel(model_path, config, None)

#predict

rets = model.predict([texts])

```

DeepOCR:

```

from common.config_ops import load_config

from deepocr.model import GraphDeepOCRModel

from PIL import Image

import PIL.ImageOps

#load model

config = load_config("config.json")

model = GraphDeepOCRModel(model_path, config)

#predict

image = Image.open("image_file")

rets = model.predict([image])

```

一键复制

编辑

Web IDE

原始数据

按行查看

历史

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值