Solr.NET快速入门(十)【二进制文档上传】【完】

二进制文档上传

SolrNet支持Solr“提取”功能(a.k.a. Solr“Cell”)从二进制文档格式(如Word,PDF等)索引数据。

这里有一个简单的示例,显示如何从PDF文件中提取文本,而无需对其进行索引:

ISolrOperations<Something> solr = ...
using (var file = File.OpenRead(@"test.pdf")) {
    var response = solr.Extract(new ExtractParameters(file, "some_document_id") {
        ExtractOnly = true,
        ExtractFormat = ExtractFormat.Text,
    });
    Console.WriteLine(response.Content);
}

ExtractOnly = true告诉Solr只执行文本提取,但不索引上传的文档。 如果ExtractOnly = false,您可以使用Fields属性添加更多字段。 其他选项可以通过ExtractParameters类的属性设置。 通常建议为内容提供StreamType,因为自动检测可能会失败。

有关ExtractParameters中每个选项的更多详细信息,请参阅Solr wiki和Solr参考指南。

使用SolrNet的网站,产品和公司

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值