前期准备
1、注册Bluemix账号
需要一个IBM的Bluemix账号,已有账号的可直接登陆,若无账号,点击注册进行注册。
注册时国家或地区默认的,否则可能会出错。
2、安装watson-developer-cloud
pip install --upgrade watson-developer-cloud
3、创建应用服务
- 登录Bluemix后,点击左上角目录栏,点击”服务“,然后点击”Watson“。则会看到一系列服务。如图所示:
- 点击Document Conversion
- 点击创建,则会创建一个相应的服务凭证
- 进入后,点击左边的服务凭证,则会看到创建的服务
- 点击查看凭证,则会显示服务的URL、用户名、密码,这些在调用相应API时会用到
Docuemnt Conversion
1、基本概念
Document Conversion 服务将单一的 HTML、PDF 或 Microsoft Word™ 文档转换为标准化的 HTML、纯文本或一组可用于其他 Watson 服务的 JSON 格式的答案单元
2、目前版本号
API 版本格式为:version=YYYY-MM-DD。以年月日作为版本号,目前版本号为:2015-12-15.
简单样例(Python实现)
Document Conversion API提供了两个方法,一下分别介绍这个两个方法。
1、Convert a document方法
用于将文档转换成为应答单位(answer units),HTML以及文本。
以下是使用Python进行简单实例,但是没有得到想要的结果,报了错误,现在将此贴出来。如有解决方法,请各位大神不吝赐教。之后将使用其他方法实现。
实现代码如下:
# encoding: UTF-8
import json
from watson_developer_cloud import DocumentConversionV1,WatsonException
document_conversion = DocumentConversionV1(
username="324e088a-5375-4f53-a863-417453290f90",
password="dTwCrjHosJn2",
version="2015-12-15"
)
config = {
'conversion_target': 'NORMALIZED_TEXT',
# Use a custom configuration.
'pdf':{
'heading':{
'fonts':[
{
'level':1,