- 博客(4)
- 资源 (18)
- 收藏
- 关注
转载 ETL过程中数据匹配的中文分词算法
<br />中文分词基本算法主要分类<br />基于词典的方法、基于统计的方法、基于规则的方法、(传说中还有基于理解的-神经网络-专家系统,按下不表)<br />1、基于词典的方法(字符串匹配,机械分词方法)<br />定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。<br />按照扫描方向的不同:正向匹配和逆向匹配<br />按照长度的不同:最大匹配和最小匹配<br />1.1正向最大匹配思想MM<br />1》从左向右取待切分汉语句的m个字符
2010-11-26 13:47:00 1526
转载 主数据管理(MDM)与元数据管理
<br /> 主数据(Master Data)和元数据(Meta Data)是两个完全不同的概念。元数据是指表示数据的相关信息,比如数据定义等,而主数据是指实例数据,比如产品目录信息等。比如,某省地税开发了一套征收管理软件,以市为单位部署了17套,每套征收管理软件中的元数据都是一样的,但是主数据还是需要进行管理的。主数据管理和传统数据仓库解决方案不是一个概念,数据仓库会将各个业务系统的数据集中在一起在进行业务的分析,而主数据管理系统不会把所有数据都管理起来,只是把需要在各个系统间共享的主数据进行采集和发布
2010-11-24 13:31:00 23521 3
转载 传统对数据访问与主数据管理(MDM)
<br /> <br />无主数据管理图示:<br /><br />容易产生以下问题:<br />数据冗余、访问繁琐、编码不统一、数据不同步、缺乏一致性<br /> <br /> <br /> <br />主数据管理对数据的访问图示:<br /><br />益处:<br />提供了统一访问、共享信息的平台,内容丰富化、数据干净。
2010-11-24 10:25:00 1516
用scoket发送基于tcp协议的自定义数据包(实现了多线程,支持多个客户端同时访问)
2010-08-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人