分析BetBrain数据的总结

BetBrain提供的数据,完全是按照关系建模,严格遵守三范式,xml数据下载到本地以后,无法直接看懂这些数据的意思。所以必须按照他们的套路,将所有数据首先解析,入库,然后用sql查询。

 

然而他们的数据模型非常庞大,共计有59个表,参见https://everymatrix.atlassian.net/wiki/display/BF/Event。这么多的数据表,要弄一套完全入库的逻辑,如果按照一般的做法,需要比较长的时间,主要是这些事情比较枯燥,字段多,手工容易出错。

 

所以在处理的过程当中,用了以下的手法,达到了快速,准确的目的:

 

1. 重复的事情尽量用机器做,人工只处理逻辑的部分。

1.1 首先要采集这些模型,将所有模型分别截图,然后找到了一个在线识别图片文字的网站http://www.newocr.com/,输入图片,输出表名以及字段名,避免手工敲的时候出错,写漏。但是识别图片也有误差,所有的弄完以后,还是人工校验一次。

 

1.2 当整个数据模型的表,以及字段名都采集下来以后,考虑写程序,将所有的数据,写入数据库。这里面涉及到建表,写java从domain, dao到service的各个层次的程序,一共59个表,如果纯手工的话,写完以后又要测试什么的,很难保证全部正确,费时费力。所以考虑了写模板,然后生成所有的代码这个办法。最后在线上找到了一个网站http://klmu.v099.10000net.cn/,可以一次生成从页面,到数据入库用mybatis的所有逻辑。只需录入包名,表名,以及字段,都生成了。大概总共花了一天的时间,就生成了全部的模型代码,并且测试增删改查数据通过。这个就是工具的威力。

 

1.3 在模型代码都生成完毕以后,要进行xml解析,里面一些逻辑,还是不可避免的有些简单重复的代码,就写了个freemaker的模板,运行java程序,生成代码。

package com.hym.odds.util;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.util.Map;


import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import freemarker.template.Configuration;
import freemarker.template.DefaultObjectWrapper;
import freemarker.template.Template;
import freemarker.template.TemplateException;
import freemarker.template.TemplateExceptionHandler;

/**
 * FreeMarkerUtil
 * 
 * @project betbrain
 * @author huyumin
 * @date 2011-9-17
 */
public class FreeMarkerUtil {

    public static Logger logger = LoggerFactory.getLogger(FreeMarkerUtil.class);


    public static boolean geneHtmlFile(String vsource, @SuppressWarnings("rawtypes") Map propMap,String vpath, String vtarget) {
        FileOutputStream fos = null;
        OutputStreamWriter osw = null;
        Writer out = null;
        try {
            Configuration freemarker_cfg = new Configuration();
            freemarker_cfg.setDirectoryForTemplateLoading(new File("F:\\test\\betBrain\\src\\com\\hym\\odds\\util"));//模板移到根目录了
            freemarker_cfg.setObjectWrapper(new DefaultObjectWrapper());
            freemarker_cfg.setDefaultEncoding("UTF-8");
            freemarker_cfg.setTemplateExceptionHandler(TemplateExceptionHandler.IGNORE_HANDLER);
            Template template = freemarker_cfg.getTemplate(vsource);
            template.setEncoding("UTF-8");
            //creatDirs(vpath + vtarget);
            File afile = new File(vpath + vtarget);
            fos = new FileOutputStream(afile);
            osw = new OutputStreamWriter(fos, "UTF-8");
            out = new BufferedWriter(osw);
            template.process(propMap, out);
            out.flush();
        } catch (TemplateException e) {
           e.printStackTrace();
            return false;
        } catch (IOException e) {
            e.printStackTrace();
            return false;
        } finally {
            if (out != null) {
                try {
                    out.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
            if (osw != null) {
                try {
                    osw.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
            if (fos != null) {
                try {
                    fos.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
        }
        return true;
    }


    public static boolean creatDirs(String path) {
        File aFile = new File(path);
        if (!aFile.exists()) {
            return aFile.mkdirs();
        } else {
            return true;
        }
    }

}

 

 

1.4 整套代码在处理的过程当中,不可避免的出现字段名弄错的情况,校正这种错误,就写了个ant脚本,对错误的部分进行替换。

 

<?xml version="1.0" encoding="utf-8" ?>
<project default="main" basedir=".">

   <target name="main">
   	<!--
   	<echo>replace sql...</echo>
	<replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8">
        <replacefilter token="varchar(100)" value="varchar(255)"/>
		<replacefilter token="AUTO_INCREMENT=17 " value=""/>
		<replacefilter token="auto_increment" value=""/>
    </replace>
	-->
   	<!--
	<echo>replace mapper.xml...</echo>
	<replace dir="F:\test\betBrain\src\com\hym\odds\persistence" includes="*.xml" encoding="UTF-8">
		<replacefilter token="(`" value="(`id`,`"/>
        <replacefilter token="values (" value="values (#{id},"/>
		
		<replacefilter token="`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`" value="`id`"/>
		<replacefilter token="#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id}" value="#{id}"/>
    </replace>
   	-->
   	<!--
   	<echo>replace ocationRelation...</echo>
   	<replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8">
   		<replacefilter token="ocationReIation" value="ocationRelation"/>
   	</replace>
   	-->
	<!--
	<echo>replace 标注...</echo>
	<replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8">
		<replacefilter token="private" value="@XStreamAsAttribute private"/>
    </replace>
   	-->
   	
   	<echo>replace ventAtion...</echo>
   	   	<replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8">
   	   		<replacefilter token="ventAtion" value="ventAction"/>
   	   	</replace>
   	</target>
</project>

 

2. 选对正确的xml的解析工具。针对这个特点,基本上是xml一个模型,对应一张表,所以选用的Xstream来处理。这个里面就只有日期类型不匹配,betbrain的日期是yyyy-MM-dd HH:mm:ss.SSS的格式的,就需要进行单独的处理,自己首先写了一个DateConverter,但是没有解决问题,最后只有debugger到xstream的代码中,跟了两次执行过程,把Xstream中的DateConverter拷贝出来,然后添加相应的日期格式就好了,日期全部更新入库。

 

3. 泛型的使用。在使用xstream解析xml模型,转换成domain的过程中,如果不用泛型,要写大量的重复代码。运用泛型,只需几行代码搞定。

package com.hym.odds.util;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

import com.hym.odds.dto.UpdateDataDTO;
import com.thoughtworks.xstream.XStream;
import com.thoughtworks.xstream.io.xml.XppDomDriver;

public class XMLParseUtil {
	@SuppressWarnings({ "rawtypes", "unchecked" })
	public static <T> T parseInitXML(Class<T> clazT, Class clazD, String xml) {
		try {
			String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", "");
			Matcher m = Pattern.compile("(<entities>.*?</entities>)").matcher(
					xmlContent);
			T dto = null;
			if (m.find()) {
				String s = m.group();

				XStream xs = new XStream(new XppDomDriver());
				xs.registerConverter(new DateConverter());

				xs.processAnnotations(clazT);
				xs.alias("entities", clazT);
				xs.alias(clazD.getSimpleName(), clazD);
				xs.addImplicitCollection(clazT, "entities");
				dto = (T) xs.fromXML(s);
			}
			return dto;
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}

	@SuppressWarnings({ "rawtypes", "unchecked" })
	public static UpdateDataDTO parseUpdateXML(String xml) {
		try {
			String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", "");
			Matcher m = Pattern.compile("(<UpdateData.*?</UpdateData>)")
					.matcher(xmlContent);
			UpdateDataDTO dto = null;
			while (m.find()) {
				String s = m.group();
				XStream xs = new XStream(new XppDomDriver());
				xs.registerConverter(new DateConverter());
				xs.processAnnotations(UpdateDataDTO.class);
				xs.alias("UpdateData", UpdateDataDTO.class);

				dto = (UpdateDataDTO) xs.fromXML(s);
			}
			return dto;
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}
}

 

 

 

4. 数据性能,整个数据有8G多,在插入的时候,如果都是一条,一条的插入,相当的耗时。所以考虑用batch insert。但是批量插入的时候,一次数据也不能超多,太多了的话,也很慢。所以只能对数据进行分页插入。

 

@SuppressWarnings("rawtypes")
	public static void insertObjectToDB(List list, String className,
			ApplicationContext context) {
		if ("BettingOffer".equals(className)) {
			BettingOfferService bettingOfferService = (BettingOfferService) context
					.getBean("bettingOfferService");
			
//			for (Object object : list) {
//				bettingOfferService.insert((BettingOffer) object);
//			}
			
			
			int start = 0;
			int end = 499;
			int size = list.size();
			if (end >= size) {
				end = size;
			}
			
			while (end <= size && start < end) {
				List subList = list.subList(start, end);
				bettingOfferService.insertBatch(subList);
				System.out.println("batch insert start = " + start + ", end = " + end);
				start = start + 500;
				end = end + 500;
				if (end >= size) {
					end = size;
				}
			}
			
			//bettingOfferService.insertBatch(list);
		} else if ("BettingOfferStatus".equals(className)) {

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值