BetBrain提供的数据,完全是按照关系建模,严格遵守三范式,xml数据下载到本地以后,无法直接看懂这些数据的意思。所以必须按照他们的套路,将所有数据首先解析,入库,然后用sql查询。
然而他们的数据模型非常庞大,共计有59个表,参见https://everymatrix.atlassian.net/wiki/display/BF/Event。这么多的数据表,要弄一套完全入库的逻辑,如果按照一般的做法,需要比较长的时间,主要是这些事情比较枯燥,字段多,手工容易出错。
所以在处理的过程当中,用了以下的手法,达到了快速,准确的目的:
1. 重复的事情尽量用机器做,人工只处理逻辑的部分。
1.1 首先要采集这些模型,将所有模型分别截图,然后找到了一个在线识别图片文字的网站http://www.newocr.com/,输入图片,输出表名以及字段名,避免手工敲的时候出错,写漏。但是识别图片也有误差,所有的弄完以后,还是人工校验一次。
1.2 当整个数据模型的表,以及字段名都采集下来以后,考虑写程序,将所有的数据,写入数据库。这里面涉及到建表,写java从domain, dao到service的各个层次的程序,一共59个表,如果纯手工的话,写完以后又要测试什么的,很难保证全部正确,费时费力。所以考虑了写模板,然后生成所有的代码这个办法。最后在线上找到了一个网站http://klmu.v099.10000net.cn/,可以一次生成从页面,到数据入库用mybatis的所有逻辑。只需录入包名,表名,以及字段,都生成了。大概总共花了一天的时间,就生成了全部的模型代码,并且测试增删改查数据通过。这个就是工具的威力。
1.3 在模型代码都生成完毕以后,要进行xml解析,里面一些逻辑,还是不可避免的有些简单重复的代码,就写了个freemaker的模板,运行java程序,生成代码。
package com.hym.odds.util;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.util.Map;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import freemarker.template.Configuration;
import freemarker.template.DefaultObjectWrapper;
import freemarker.template.Template;
import freemarker.template.TemplateException;
import freemarker.template.TemplateExceptionHandler;
/**
* FreeMarkerUtil
*
* @project betbrain
* @author huyumin
* @date 2011-9-17
*/
public class FreeMarkerUtil {
public static Logger logger = LoggerFactory.getLogger(FreeMarkerUtil.class);
public static boolean geneHtmlFile(String vsource, @SuppressWarnings("rawtypes") Map propMap,String vpath, String vtarget) {
FileOutputStream fos = null;
OutputStreamWriter osw = null;
Writer out = null;
try {
Configuration freemarker_cfg = new Configuration();
freemarker_cfg.setDirectoryForTemplateLoading(new File("F:\\test\\betBrain\\src\\com\\hym\\odds\\util"));//模板移到根目录了
freemarker_cfg.setObjectWrapper(new DefaultObjectWrapper());
freemarker_cfg.setDefaultEncoding("UTF-8");
freemarker_cfg.setTemplateExceptionHandler(TemplateExceptionHandler.IGNORE_HANDLER);
Template template = freemarker_cfg.getTemplate(vsource);
template.setEncoding("UTF-8");
//creatDirs(vpath + vtarget);
File afile = new File(vpath + vtarget);
fos = new FileOutputStream(afile);
osw = new OutputStreamWriter(fos, "UTF-8");
out = new BufferedWriter(osw);
template.process(propMap, out);
out.flush();
} catch (TemplateException e) {
e.printStackTrace();
return false;
} catch (IOException e) {
e.printStackTrace();
return false;
} finally {
if (out != null) {
try {
out.close();
} catch (IOException e) {
logger.error(e.getMessage());
}
}
if (osw != null) {
try {
osw.close();
} catch (IOException e) {
logger.error(e.getMessage());
}
}
if (fos != null) {
try {
fos.close();
} catch (IOException e) {
logger.error(e.getMessage());
}
}
}
return true;
}
public static boolean creatDirs(String path) {
File aFile = new File(path);
if (!aFile.exists()) {
return aFile.mkdirs();
} else {
return true;
}
}
}
1.4 整套代码在处理的过程当中,不可避免的出现字段名弄错的情况,校正这种错误,就写了个ant脚本,对错误的部分进行替换。
<?xml version="1.0" encoding="utf-8" ?> <project default="main" basedir="."> <target name="main"> <!-- <echo>replace sql...</echo> <replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8"> <replacefilter token="varchar(100)" value="varchar(255)"/> <replacefilter token="AUTO_INCREMENT=17 " value=""/> <replacefilter token="auto_increment" value=""/> </replace> --> <!-- <echo>replace mapper.xml...</echo> <replace dir="F:\test\betBrain\src\com\hym\odds\persistence" includes="*.xml" encoding="UTF-8"> <replacefilter token="(`" value="(`id`,`"/> <replacefilter token="values (" value="values (#{id},"/> <replacefilter token="`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`" value="`id`"/> <replacefilter token="#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id}" value="#{id}"/> </replace> --> <!-- <echo>replace ocationRelation...</echo> <replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8"> <replacefilter token="ocationReIation" value="ocationRelation"/> </replace> --> <!-- <echo>replace 标注...</echo> <replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8"> <replacefilter token="private" value="@XStreamAsAttribute private"/> </replace> --> <echo>replace ventAtion...</echo> <replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8"> <replacefilter token="ventAtion" value="ventAction"/> </replace> </target> </project>
2. 选对正确的xml的解析工具。针对这个特点,基本上是xml一个模型,对应一张表,所以选用的Xstream来处理。这个里面就只有日期类型不匹配,betbrain的日期是yyyy-MM-dd HH:mm:ss.SSS的格式的,就需要进行单独的处理,自己首先写了一个DateConverter,但是没有解决问题,最后只有debugger到xstream的代码中,跟了两次执行过程,把Xstream中的DateConverter拷贝出来,然后添加相应的日期格式就好了,日期全部更新入库。
3. 泛型的使用。在使用xstream解析xml模型,转换成domain的过程中,如果不用泛型,要写大量的重复代码。运用泛型,只需几行代码搞定。
package com.hym.odds.util;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import com.hym.odds.dto.UpdateDataDTO;
import com.thoughtworks.xstream.XStream;
import com.thoughtworks.xstream.io.xml.XppDomDriver;
public class XMLParseUtil {
@SuppressWarnings({ "rawtypes", "unchecked" })
public static <T> T parseInitXML(Class<T> clazT, Class clazD, String xml) {
try {
String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", "");
Matcher m = Pattern.compile("(<entities>.*?</entities>)").matcher(
xmlContent);
T dto = null;
if (m.find()) {
String s = m.group();
XStream xs = new XStream(new XppDomDriver());
xs.registerConverter(new DateConverter());
xs.processAnnotations(clazT);
xs.alias("entities", clazT);
xs.alias(clazD.getSimpleName(), clazD);
xs.addImplicitCollection(clazT, "entities");
dto = (T) xs.fromXML(s);
}
return dto;
} catch (Exception e) {
e.printStackTrace();
}
return null;
}
@SuppressWarnings({ "rawtypes", "unchecked" })
public static UpdateDataDTO parseUpdateXML(String xml) {
try {
String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", "");
Matcher m = Pattern.compile("(<UpdateData.*?</UpdateData>)")
.matcher(xmlContent);
UpdateDataDTO dto = null;
while (m.find()) {
String s = m.group();
XStream xs = new XStream(new XppDomDriver());
xs.registerConverter(new DateConverter());
xs.processAnnotations(UpdateDataDTO.class);
xs.alias("UpdateData", UpdateDataDTO.class);
dto = (UpdateDataDTO) xs.fromXML(s);
}
return dto;
} catch (Exception e) {
e.printStackTrace();
}
return null;
}
}
4. 数据性能,整个数据有8G多,在插入的时候,如果都是一条,一条的插入,相当的耗时。所以考虑用batch insert。但是批量插入的时候,一次数据也不能超多,太多了的话,也很慢。所以只能对数据进行分页插入。
@SuppressWarnings("rawtypes")
public static void insertObjectToDB(List list, String className,
ApplicationContext context) {
if ("BettingOffer".equals(className)) {
BettingOfferService bettingOfferService = (BettingOfferService) context
.getBean("bettingOfferService");
// for (Object object : list) {
// bettingOfferService.insert((BettingOffer) object);
// }
int start = 0;
int end = 499;
int size = list.size();
if (end >= size) {
end = size;
}
while (end <= size && start < end) {
List subList = list.subList(start, end);
bettingOfferService.insertBatch(subList);
System.out.println("batch insert start = " + start + ", end = " + end);
start = start + 500;
end = end + 500;
if (end >= size) {
end = size;
}
}
//bettingOfferService.insertBatch(list);
} else if ("BettingOfferStatus".equals(className)) {