分析BetBrain数据的总结

最新推荐文章于 2021-03-23 05:27:32 发布

huyuminNo1

最新推荐文章于 2021-03-23 05:27:32 发布

阅读量459

点赞数

分类专栏： java 文章标签： java 数据库

本文链接：https://blog.csdn.net/huyuminNo1/article/details/84609768

版权

java 专栏收录该内容

108 篇文章 1 订阅

订阅专栏

BetBrain提供的数据，完全是按照关系建模，严格遵守三范式，xml数据下载到本地以后，无法直接看懂这些数据的意思。所以必须按照他们的套路，将所有数据首先解析，入库，然后用sql查询。

然而他们的数据模型非常庞大，共计有59个表，参见https://everymatrix.atlassian.net/wiki/display/BF/Event。这么多的数据表，要弄一套完全入库的逻辑，如果按照一般的做法，需要比较长的时间，主要是这些事情比较枯燥，字段多，手工容易出错。

所以在处理的过程当中，用了以下的手法，达到了快速，准确的目的：

1. 重复的事情尽量用机器做，人工只处理逻辑的部分。

1.1 首先要采集这些模型，将所有模型分别截图，然后找到了一个在线识别图片文字的网站http://www.newocr.com/，输入图片，输出表名以及字段名，避免手工敲的时候出错，写漏。但是识别图片也有误差，所有的弄完以后，还是人工校验一次。

1.2 当整个数据模型的表，以及字段名都采集下来以后，考虑写程序，将所有的数据，写入数据库。这里面涉及到建表，写java从domain， dao到service的各个层次的程序，一共59个表，如果纯手工的话，写完以后又要测试什么的，很难保证全部正确，费时费力。所以考虑了写模板，然后生成所有的代码这个办法。最后在线上找到了一个网站http://klmu.v099.10000net.cn/，可以一次生成从页面，到数据入库用mybatis的所有逻辑。只需录入包名，表名，以及字段，都生成了。大概总共花了一天的时间，就生成了全部的模型代码，并且测试增删改查数据通过。这个就是工具的威力。

1.3 在模型代码都生成完毕以后，要进行xml解析，里面一些逻辑，还是不可避免的有些简单重复的代码，就写了个freemaker的模板，运行java程序，生成代码。

package com.hym.odds.util;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.util.Map;


import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import freemarker.template.Configuration;
import freemarker.template.DefaultObjectWrapper;
import freemarker.template.Template;
import freemarker.template.TemplateException;
import freemarker.template.TemplateExceptionHandler;

/**
 * FreeMarkerUtil
 * 
 * @project betbrain
 * @author huyumin
 * @date 2011-9-17
 */
public class FreeMarkerUtil {

    public static Logger logger = LoggerFactory.getLogger(FreeMarkerUtil.class);


    public static boolean geneHtmlFile(String vsource, @SuppressWarnings("rawtypes") Map propMap,String vpath, String vtarget) {
        FileOutputStream fos = null;
        OutputStreamWriter osw = null;
        Writer out = null;
        try {
            Configuration freemarker_cfg = new Configuration();
            freemarker_cfg.setDirectoryForTemplateLoading(new File("F:\\test\\betBrain\\src\\com\\hym\\odds\\util"));//模板移到根目录了
            freemarker_cfg.setObjectWrapper(new DefaultObjectWrapper());
            freemarker_cfg.setDefaultEncoding("UTF-8");
            freemarker_cfg.setTemplateExceptionHandler(TemplateExceptionHandler.IGNORE_HANDLER);
            Template template = freemarker_cfg.getTemplate(vsource);
            template.setEncoding("UTF-8");
            //creatDirs(vpath + vtarget);
            File afile = new File(vpath + vtarget);
            fos = new FileOutputStream(afile);
            osw = new OutputStreamWriter(fos, "UTF-8");
            out = new BufferedWriter(osw);
            template.process(propMap, out);
            out.flush();
        } catch (TemplateException e) {
           e.printStackTrace();
            return false;
        } catch (IOException e) {
            e.printStackTrace();
            return false;
        } finally {
            if (out != null) {
                try {
                    out.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
            if (osw != null) {
                try {
                    osw.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
            if (fos != null) {
                try {
                    fos.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
        }
        return true;
    }


    public static boolean creatDirs(String path) {
        File aFile = new File(path);
        if (!aFile.exists()) {
            return aFile.mkdirs();
        } else {
            return true;
        }
    }

}

1.4 整套代码在处理的过程当中，不可避免的出现字段名弄错的情况，校正这种错误，就写了个ant脚本，对错误的部分进行替换。

<?xml version="1.0" encoding="utf-8" ?>
<project default="main" basedir=".">

   <target name="main">
   	<!--
   	<echo>replace sql...</echo>
	<replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8">
        <replacefilter token="varchar(100)" value="varchar(255)"/>
		<replacefilter token="AUTO_INCREMENT=17 " value=""/>
		<replacefilter token="auto_increment" value=""/>
    </replace>
	-->
   	<!--
	<echo>replace mapper.xml...</echo>
	<replace dir="F:\test\betBrain\src\com\hym\odds\persistence" includes="*.xml" encoding="UTF-8">
		<replacefilter token="(`" value="(`id`,`"/>
        <replacefilter token="values (" value="values (#{id},"/>
		
		<replacefilter token="`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`" value="`id`"/>
		<replacefilter token="#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id}" value="#{id}"/>
    </replace>
   	-->
   	<!--
   	<echo>replace ocationRelation...</echo>
   	<replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8">
   		<replacefilter token="ocationReIation" value="ocationRelation"/>
   	</replace>
   	-->
	<!--
	<echo>replace 标注...</echo>
	<replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8">
		<replacefilter token="private" value="@XStreamAsAttribute private"/>
    </replace>
   	-->
   	
   	<echo>replace ventAtion...</echo>
   	   	<replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8">
   	   		<replacefilter token="ventAtion" value="ventAction"/>
   	   	</replace>
   	</target>
</project>

2. 选对正确的xml的解析工具。针对这个特点，基本上是xml一个模型，对应一张表，所以选用的Xstream来处理。这个里面就只有日期类型不匹配，betbrain的日期是yyyy-MM-dd HH:mm:ss.SSS的格式的，就需要进行单独的处理，自己首先写了一个DateConverter，但是没有解决问题，最后只有debugger到xstream的代码中，跟了两次执行过程，把Xstream中的DateConverter拷贝出来，然后添加相应的日期格式就好了，日期全部更新入库。

3. 泛型的使用。在使用xstream解析xml模型，转换成domain的过程中，如果不用泛型，要写大量的重复代码。运用泛型，只需几行代码搞定。

package com.hym.odds.util;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

import com.hym.odds.dto.UpdateDataDTO;
import com.thoughtworks.xstream.XStream;
import com.thoughtworks.xstream.io.xml.XppDomDriver;

public class XMLParseUtil {
	@SuppressWarnings({ "rawtypes", "unchecked" })
	public static <T> T parseInitXML(Class<T> clazT, Class clazD, String xml) {
		try {
			String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", "");
			Matcher m = Pattern.compile("(<entities>.*?</entities>)").matcher(
					xmlContent);
			T dto = null;
			if (m.find()) {
				String s = m.group();

				XStream xs = new XStream(new XppDomDriver());
				xs.registerConverter(new DateConverter());

				xs.processAnnotations(clazT);
				xs.alias("entities", clazT);
				xs.alias(clazD.getSimpleName(), clazD);
				xs.addImplicitCollection(clazT, "entities");
				dto = (T) xs.fromXML(s);
			}
			return dto;
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}

	@SuppressWarnings({ "rawtypes", "unchecked" })
	public static UpdateDataDTO parseUpdateXML(String xml) {
		try {
			String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", "");
			Matcher m = Pattern.compile("(<UpdateData.*?</UpdateData>)")
					.matcher(xmlContent);
			UpdateDataDTO dto = null;
			while (m.find()) {
				String s = m.group();
				XStream xs = new XStream(new XppDomDriver());
				xs.registerConverter(new DateConverter());
				xs.processAnnotations(UpdateDataDTO.class);
				xs.alias("UpdateData", UpdateDataDTO.class);

				dto = (UpdateDataDTO) xs.fromXML(s);
			}
			return dto;
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}
}

4. 数据性能，整个数据有8G多，在插入的时候，如果都是一条，一条的插入，相当的耗时。所以考虑用batch insert。但是批量插入的时候，一次数据也不能超多，太多了的话，也很慢。所以只能对数据进行分页插入。

@SuppressWarnings("rawtypes")
	public static void insertObjectToDB(List list, String className,
			ApplicationContext context) {
		if ("BettingOffer".equals(className)) {
			BettingOfferService bettingOfferService = (BettingOfferService) context
					.getBean("bettingOfferService");
			
//			for (Object object : list) {
//				bettingOfferService.insert((BettingOffer) object);
//			}
			
			
			int start = 0;
			int end = 499;
			int size = list.size();
			if (end >= size) {
				end = size;
			}
			
			while (end <= size && start < end) {
				List subList = list.subList(start, end);
				bettingOfferService.insertBatch(subList);
				System.out.println("batch insert start = " + start + ", end = " + end);
				start = start + 500;
				end = end + 500;
				if (end >= size) {
					end = size;
				}
			}
			
			//bettingOfferService.insertBatch(list);
		} else if ("BettingOfferStatus".equals(className)) {