Windows+GCC得到各种格式的文件正文(office文件,PDF,邮件,html,zip等)

Graccvs组件能智能分析并提取多种文件格式(如PDF、DOC、PPT等)的文本,适用于全文检索、自然语言信息处理、机器学习等领域。它为Lucene/CLucene、Elasticsearch等工具提供文件摘要和搜索服务,并可应用于OA、ERP、邮件监控等系统。组件以DLL形式提供,调用简单,速度快。
摘要由CSDN通过智能技术生成

 Graccvs组件智能分析提取其他各种文件中文本,为自然语言信息检索,机器学习等高端技术提供底层支持的技术组件,是Lucene/CLucene, Elasticsearch, Sphinx等全文检索工具,OA, ERP, CRM,网盘,文件管理等其他系统提供文件摘要及搜索前置服务。同时也可以为安全网关,邮件内容监控,内网安全等系统提供文件搜索及监控服务底层技术支持。

组件支持常见各种文件格式”.pdf", ".doc", ".odt", ".docx", ".dotm", ".docm", ".wps", ".xls", ".xlsx", ".xlsm", ".xltm", ".et", ".ppt", ".pptx", ".potm", ".pptm", ".ppsm", ".dps", ".ofd"(电子发票版式文件), ".rtf",".html", ".htm", ".mht", ".mhtml", ".eml", ".emmx", "xmind", "gmind", ".chm", ".zip" 等。组件速度快,效率高,调用非常简单。

Graccvs组件是以DLL格式动态链接库方式调用的, 点击这里下载DLL动态链接库,函数详细说明和调用示例点击这里下载

调用过程:
1:拷贝graccvs.h 和 graccvsDllTest.c到文件夹下。
2:拷贝 graccvs64.dll到工程中, 默认在exe输出位置。
3:编译即可 gcc graccvsDllTest.c -o graccvsDllTest.exe 。

头文件graccvs.h :

#include <stdio.h>
#include <stdlib.h>
  
//----------------------以下为函数说明----------------------
// 加载DLL,设置动态库需要的临时文件夹,且对此文件夹要有读写权限
typedef void (*LOAD)(char *tempDir);  
 
/*
  注册软件:
  方式1:输入参数,corp为公司名称licText为注册码
  方式2:把授权文件grauth.lic保存到动态库相同文件夹,调用TAuth函数(corp, licText都为空)系统自动加载grauth.lic
  返回值:
    0:免费版本许可为空
    1:许可正常
    2:序列号(公司授权名称)错误
    3:加密数据格式错误
    4:许可过期
    5:许可验证错误
    6:无效的许可
    7:未知错误
 
  注1:如果注册失败,系统变为免费版本
  注2:免费版也需要调用此函数,corp和licText都为空
*/
typedef int (*AUTH)(char *corp, char *licText);  
 
// 提取文件正文,并保存到目标文件
// inFilePtr文件名称指针, outFilePtr为TXT目标文件文件指针
typedef int (*TOTEXTFILE)(char *inFilePtr, char *outFilePtr);  
// 提取文件正文,返回字符串指针
// inFilePtr输入文件指针, 返回UTF-8编码字符串数据指针(此指针需要使用FREESTRING函数释放内存)
typedef char* (*TOSTRING)(char *inFilePtr);  
// 释放TOSTRING等函数的返回指针
typedef void (*FREESTRING)(char *p);  
// 得到最后的错误信息
typedef char* (*LASTERR)();  
 
// 提取Http/Https文件,返回字符串数据指针
// url=Http/Https地址
// fileExt=文件类型(比如:".pdf"),
// timeout=超时设置,超过此数值系统终止下载文件。单位为毫秒,默认为0(等待文件下载直到完成)
// httpParams=JSON格式header数据和cookie数据,默认为空
/*   
  JSON格式如下:
  {"headers":
  [{名称1: 值1},{名称2: 值2},...],
  "cookies":[
  {"name": 名称(字符串), "value": 值(字符串), "expires": 有效期(整数,单位毫秒),
  "path": 路径(字符串), "domain": 域名(字符串)},
  {"name": 名称(字符串), "value": 值(字符串), "expires": 有效期(整数,单位毫秒),
  "path": 路径(字符串), "domain": 域名(字符串)}
  ...
  ]}
  例如:
  {"headers":[{"client_id": &#
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值