对于某些项目,开发人员需要从Word文档中提取数据并导出到数据库。最大的挑战是必须支持现有Word文档。
相同格式且带多个数据块的Word文档有成千上万。该文档格式并不是设计来被另一个系统所读取的。这意味着,没有书签、合并字段、从标准指令识别实际数据的方式等。还好,所有输入字段都在表格内,但这些表格也是不同的格式,一些是单行/单元格,另一些则变化多端。
我们可以用Aspose.Words来创建和操作Word文档。
以C#创建一个类似的表格模型从而稍后当读取文档的时候我们可以用上它。
如下所示,你可以看到创建的名为WordDocumentTable的类,带有三个属性:TableID,RowID和ColumnID,如之前所说的,我们没有支持TableID/RowIDs,这些属性仅仅暗示着Word文档的位置。开始索引假定为0。
public class WordDocumentTable
{
public WordDocumentTable(int PiTableID)
{
MiTableID = PiTableID;
}
public WordDocumentTable(int PiTableID, int PiColumnID)
{
MiTableID = PiTableID;
MiColumnID = PiColumnID;
}
public WordDocumentTable(int PiTableI