将xml存储到数据库

最新推荐文章于 2024-06-13 17:31:47 发布

huangchongmin

最新推荐文章于 2024-06-13 17:31:47 发布

阅读量1.8k

点赞数

1.概述
我们要将外部系统给的XML文件进行解析，并存入到数据库。但是我们并没有DTD或者Schema，只有一个WORD格式的说明文档；更离谱的是，XML结点树的结构(即XML结点与XML结点之间的关系)与业务Bean树的结构(即业务Bean与业务Bean的关系)并不完全一致，比如说，从业务角度讲，一只猪有只猪头，而在XML里，却写成了 pig --content --pighead 的三级关系，无端端多了一个content结点！没有DTD/Schema，结构又不规范，我们就没法用自动化的第三方JAVA转换API进行解析，而只能手动地、一个一个地解析。但在手动解析的过程中，我们仍然发现各个结点的解析和入库中有很多东西是共同的，或者有共同的规律，这些东西可以抽出来作为一个准框架，然后再将结点中不同的部分开放出来，允许具体的结点做具体的实现，并最终形成一个半自动的解析/入库框架。

为什么说它是半自动的？它有哪些限制？
自动：不必为每个结点编写XML 解析代码和入库代码
“半”：需手动地编写每个JAVABEAN，并手动地为每个BEAN建表
限制：
a.所有业务字段的类型只能设为STRING/VARCHAR，并且非业务字段的类型在BEAN中不能为STRING
b.BEAN名与表名必须相同，或者可以进行一对一映射
c.BEAN的成员变量名必须与XML结点的属性名/元素名相同，或者可以进行一对一映射
这三种限制都是利用JAVA反射机制进行自动操作的前提。

2.基本思想
所谓的XML解析，就是将XML结点转换成JAVABEAN实例，XML结点的ATTRIBUTE值和ELEMENT值就是JAVABEAN实例的成员变量值; 所谓的持久化，就是将JAVABEAN实例变成数据库对应表中的一条记录，JAVABEAN实例的成员变量值就是记录中某个字段的值，或者其他表中某个参考了该记录的另一条记录。
而在XML中，JAVABEAN体系中，数据据表关系结构中，结点和结点之间的关系都是树形的关系。整体的解析和入库，就是在遍历树时执行转换动作。而我们知道，树的遍历是可以用递归算法实现的，而递归，就不用说了吧，它是实现程序“自动化”的主要途径之一。

以下是对各“树”的具体分析：
假设两个业务实体A和B之间存在聚合关系(父子关系)。那么具体可分三种情况：
a.B是一个原子字段（即不可再分），并且是A的一个属性。
XML中，B是A的XML ATTRIBUTE或者A的原子ELEMENT
BEAN中，B是A的成员变量，并且B是一个JAVA内置的数据类型
数据库中，B是A表的一个列
b.B是一个复合字段，并且是A的一个属性，而且和A是1:1关系
XML中，B是A的ELEMENT，并且B有自己的ELEMENT或者ATTRIBUTE
BEAN中，B是A的成员变量，并且程序中有个B类
数据库中，B表是A表的子表(即B外键参考了A表)
c.B是一个复合字段，并且是A的一个属性，而且和A是N:1关系
XML中，B是A的ELEMENT，并且B有自己的ELEMENT或者ATTRIBUTE
BEAN中，B组成一个类集（List,Set）共同作为A的成员变量，并且程序中有个B类
数据库中，B表是A表的子表(即B外键参考了A表)

了解了这三种情况，接下来就好办了。程序每抓到一个结点，都要递归地进行以下处理：先处理它的原子属性（情形a），接着处理它的单个子结点（情形b），最后处理它的类集子结点( 情形c)。

3.代码实现的重点
两个重点：
a.如何让业务实体在三棵树内一一对应好？
b.如何发现树形关系，比如A的属性有哪些，A的子结点有哪些？

问题a很简单，就是让三棵树里相同的业务实体取相同的名字。
a.解析XML时发现结点X 的属性Y 等于值Z，则执行PropertyUtils.setProperty(结点X , 属性Y , 值Z)即可。在这里X，Y,Z是变量，程序不用关心具体的结点和属性是哪些个。需要注意的是，如果属性Y是原子字段，则要求属性Y必须为String类型，否则程序不知道将值Z转换成哪种类型（注：关于PropertyUtils，请见apache commons Beanutils ）
b.入库时发现x.getY()=z。如果属性y是原子字段，则执行SQL insert into X(...,y,...) values (...,z,...)，这里要求y字段必须为varchar/char类型，以免发生类型转换错误.

关于问题b
XML树：JDOM, dom4j等都可以直接找到父子关系
BEAN体系：
I.原子属性。我们限定一个BEAN中所有有业务意义的原子字段的类型都STRING，所有String类型的字段都是业务字段
II.单个子结点。我们让所有有业务意义的非原子字段都实现一个共同的接口BusiNode，这样一个BEAN中所有BusiNode成员都是这个BEAN的子结点
III.类集子结点。我们也可以限定所有且只有类集子结点可以使用List或Set类型，这样可以利用过滤出所有类集子结点。然而，在JAVA1.4及以前的版本里，程序并不知道过滤出的类集子结点是哪个Class的实例（因为没有泛型），也就没办法实例化一个类集子结点（见后文），因此只能手动注册类集子结点的属性名和Class。JAVA1.5以上的版本我没用过，不知道可不可以解决这个问题。
数据库表关系: 这就不用多说了，就是通过外键参考。因此每类结点对应的表中，都必须有个外键，以参考它的父结点；还必须有个主键，以供它的子结点参考。各表的外键名必须相同并为一常数，否则程序生成INSERT SQL时才可以不用理会具体表的具体的外键名。

程序在解析时，遍历的是BEAN树；在持久化时也是。比起XML树，BEAN树代表真正的业务结构；比起数据库表关系树，BEAN树才能由父至子地进行先序遍历

4.其他问题
a.要让程序知道，原子属性中哪些是XML结点的属性，哪些是XML结点的原子ELEMENT。代码中这是两个抽象方法，必须让具体的结点类实现
b.回顾本文概述部分提到的“pig --content --pighead 的三级关系，无端端多了一个content结点”，因此我们要让程序知道，pighead,pigfoot等结点的子结点，究竟是pig，还是pig下的content。处理不规范XML时要注意这个问题。这也是一个抽象方法，必须让具体的结点类实现
c.与上一条类似但更变态的，是类集结点的不规范问题。假设一个pig有多个pighead，那结构可能为 pig--pighead,pighead,...，也可能为pig--pigheads--content,content.... 必须让程序知道某个具体结点用的是哪种模式

5.代码
核心：多态 + 递归

a.接口BusiNode

import java.util.*;

import org.dom4j.Element;

/**
* 每个结点都要实现的接口
* 它提供了一些方法以方便实现递归的XML解析和持久化
*
*/
public interface BusiNode {

/**
* 所有类型为不可分类型的属性
* @return 属性名的集合
*/
public List getAtomicPropNames();

/**
* 一些成员变量。这些成员变量是XML结点的属性
* @return
*/
public List getXmlAttributes();

/**
* 一些成员变量。这些成员变量是XML结点的子元素，并且类型为不可分的
* @return
*/
public List getXmlAtomicElements();

/**
* 所有类型为类集的属性，并且这些类集中每个元素的类型都是BusiNode
* @return key = 属性名, value = 属性类的Class对象。如果为空不返回NULL，而是空的MAP
*/
public Map getCollectionPropsMap();

/**
* 所有类型为BusiNode的属性
* @return 属性名的集合
*/
public List getBusiNodePropNames();

/**
* 从XML中解析出来。
* @param element
* @return
*/
public void parseFromXML(Element element);

}

b.默认的实现

import java.lang.reflect.Field;
import java.util.*;

import org.apache.commons.beanutils.PropertyUtils;
import org.dom4j.Attribute;
import org.dom4j.Element;

/**
* 默认的BUSI NODE。继承此类的BUSI NODE 需满足所有不可分属性集=String类型的属性集
* MyUtils类的代码欠奉
*
*/
public abstract class DefaultBusiNode implements BusiNode {

public List getAtomicPropNames() {
return MyUtils.getFieldNamesOfClass(this.getClass(), String.class);
}

public List getBusiNodePropNames() {
return MyUtils.getFieldNamesOfClass(this.getClass(), BusiNode.class);
}

/*
* 所有子元素的父元素。有时是本结点，有时是本结点下的元素。变态
*/
public abstract Element getXmlElementParent(Element rootElement);

/*
* 类集子结点根元素的Iterator 。假设一个pig有多个pighead，那结构可能为 pig--pighead,pighead,...，也可能为pig--pigheads--content,content.... 必须让程序知道某个具体结点用的是哪种模式
*

* 如果为空则返回一个空类集的Iterator ，不要返回NULL
*/
public abstract Iterator getCollectionElementIterator(
Element xmlElementParent, String attName);

/**
* 解析XML属性
*
* @param rootElement
*/
protected void parseAttributesFromXml(Element rootElement) {
List xmlAttributes = this.getXmlAttributes();
for (int i = 0; i < this.getXmlAttributes().size(); i++) {

String attName = (String) xmlAttributes.get(i);
Attribute att = rootElement.attribute(attName);
if (att != null) {
try {
PropertyUtils.setProperty(this, attName, att.getValue());
} catch (Exception e) {
throw new RuntimeException(e);
}
}

}
}

/**
* 解析不可分的Element
*
* @param rootElement
*/
protected void parseAtomicElementFromXml(Element rootElement) {

Element xmlElementParent = getXmlElementParent(rootElement);
if (xmlElementParent == null) {
return;
}

List xmlElements = this.getXmlAtomicElements();
for (int i = 0; i < xmlElements.size(); i++) {

String attName = (String) xmlElements.get(i);
Element elmt = xmlElementParent.element(attName);
if (elmt != null) {
try {
PropertyUtils.setProperty(this, attName, elmt.getText());
} catch (Exception e) {
throw new RuntimeException(e);
}
}

}

}

/**
* 解析BusiNode属性
*
* @param rootElement
*/
protected void parseBusiNodeElementFromXml(Element rootElement) {
Element xmlElementParent = getXmlElementParent(rootElement);
if (xmlElementParent == null) {
return;
}

// 再解析BusiNode属性
List busiNodePropNames = this.getBusiNodePropNames();
for (int i = 0; i < busiNodePropNames.size(); i++) {
try {
String attName = (String) busiNodePropNames.get(i);
Element elmt = xmlElementParent.element(attName);
if (elmt != null) {
Field field = this.getClass().getDeclaredField(attName);
BusiNode att = (BusiNode) field.getType().newInstance();
att.parseFromXML(elmt);
PropertyUtils.setProperty(this, attName, att);
}

} catch (Exception e) {
throw new RuntimeException(e);
}

}
}

/**
* 解析类集属性
*
* @param rootElement
*/
protected void parseCollectionPropsFromXml(Element rootElement) {
// 先解析XML属性

Element xmlElementParent = getXmlElementParent(rootElement);
if (xmlElementParent == null) {
return;
}

// 最后解析类集属性
Map collectionPropsMap = this.getCollectionPropsMap();
for (Iterator it = collectionPropsMap.keySet().iterator(); it.hasNext();) {
try {
String attName = (String) it.next();
Collection coll = (Collection) PropertyUtils.getProperty(this,
attName);
Class attType = (Class) collectionPropsMap.get(attName);

Iterator collElementsIt = this.getCollectionElementIterator(
xmlElementParent, attName);
// xmlElementParent.elementIterator(attName);
while (collElementsIt.hasNext()) {
Element collElmt = (Element) collElementsIt.next();
BusiNode sinlgeAtt = (BusiNode) attType.newInstance();
sinlgeAtt.parseFromXML(collElmt);
coll.add(sinlgeAtt);
}

} catch (Exception e) {
throw new RuntimeException(e);
}

}
}

/**
* 从XML中解析出结点。此方法可能抛出RumtimeException
*/
public void parseFromXML(Element rootElement) {

this.parseAttributesFromXml(rootElement);
this.parseAtomicElementFromXml(rootElement);
this.parseBusiNodeElementFromXml(rootElement);
this.parseCollectionPropsFromXml(rootElement);

}

}

/**
* 入库
* JdbcUtil,MyUtils的代码欠奉
*
*/
public class BusiNodeDAO {

private Long saveBusiNode(BusiNode node, Long parentNodeId) {

// 先存储原子属性
Long id = saveBareBusiNode(node, parentNodeId);

// 再存储类集属性
Map collectionPropsMap = node.getCollectionPropsMap();
for (Iterator it = collectionPropsMap.keySet().iterator(); it.hasNext();) {
String attName = (String) it.next();
Collection coll = null;
try {
coll = (Collection) PropertyUtils.getProperty(node, attName);
} catch (Exception e) {
throw new RuntimeException("编码错误");
}

for (Iterator iitt = coll.iterator(); iitt.hasNext();) {
BusiNode subNode = (BusiNode) iitt.next();
saveBusiNode(subNode, id);
}

}

// 最后存储所有BusiNode属性
Iterator iitt = node.getBusiNodePropNames().iterator();
while (iitt.hasNext()) {
BusiNode subNode = null;
try {
subNode = (BusiNode) PropertyUtils.getProperty(node,
(String) iitt.next());
} catch (Exception e) {
throw new RuntimeException("编码错误");
}
if (subNode != null) {
saveBusiNode(subNode, id);
}
}

return id;

}

/**
* 插入某个BusiNode的根结点，此方法可能抛出RuntimeException
*
* @param node
* @return
*/
private Long saveBareBusiNode(BusiNode node, Long parentNodeId) {
StringBuffer sbForSql = new StringBuffer();
List paramValues = new ArrayList();
genInsertSqlAndParam(node, parentNodeId, node.getAtomicPropNames(),
sbForSql, paramValues);

return new Long(JdbcUtil.queryForLong(
sbForSql.toString(), paramValues.toArray()));
}

/**
* 生成某个结点的插入语句和paramValues数组，此方法可能抛出RuntimeException
*
* @param node
* @param columnNames
* @param sbForSql
* @param paramValues
*/
private void genInsertSqlAndParam(BusiNode node, Long parentNodeId,
List columnNames, StringBuffer sbForSql, List paramValues) {

sbForSql.append(" insert into ");
sbForSql.append(MyUtils.getClassBareName(node.getClass()));

List cns = new ArrayList();
cns.addAll(columnNames);

cns.add("parentNodeId");
sbForSql.append(MyUtils.encloseWithCurve(MyUtils
.joinCollectionStrings(cns, ",")));
sbForSql.append(" values ");

List qms = new ArrayList(); // 问号
for (Iterator it = columnNames.iterator(); it.hasNext();) {
qms.add("?");
String cn = (String) it.next();
try {
paramValues.add(PropertyUtils.getProperty(node, cn));
} catch (Exception e) {
throw new RuntimeException(e);
}

}
qms.add("?"); // parentNodeId
paramValues.add(parentNodeId);

sbForSql.append(MyUtils.encloseWithCurve(MyUtil
.joinCollectionStrings(qms, ",")));
sbForSql.append(";select @@identity");
}

}

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=1672701

huangchongmin

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
将xml存储到数据库

1.概述我们要将外部系统给的XML文件进行解析，并存入到数据库。但是我们并没有DTD或者Schema，只有一个WORD格式的说明文档；更离谱的是，XML结点树的结构(即XML结点与XML结点之间的关系)与业务Bean树的结构(即业务Bean与业务Bean的关系)并不完全一致，比如说，从业务角度讲，一只猪有只猪头，而在XML里，却写成了 pig --content --pighead ...
复制链接

扫一扫