文本内容分析和智能反馈（2）－数据预处理和按纬度统计

最新推荐文章于 2022-09-06 18:02:45 发布

stationxp

最新推荐文章于 2022-09-06 18:02:45 发布

阅读量2k

点赞数

分类专栏：日积月累文章标签：预处理 weka 文本分析分词

本文链接：https://blog.csdn.net/stationxp/article/details/46224319

版权

日积月累专栏收录该内容

38 篇文章 0 订阅

订阅专栏

书接上文，考虑4个核心功能的实现，先考虑：数据预处理和按纬度统计。

1、数据预处理

1.1、基本原则

首先，考虑数据的格式。

业务数据是保存在关系型数据库中的。数据分析的部分，我们将使用Weka，虽然Weka习惯ARFF格式，为了实现数据分析和提取的自动化，我们将通过Weka的JDBC接口为其提供数据。这样，可以使用ETL工具或者通过程序代码执行SQL实现数据提取和格式转换。
在开发阶段，我们基本上可以将数据提取和转换逻辑固定下来，没有必要采用专门的ETL工具。

其次，考虑数据转换的要求。

我们初步确定的关键属性为：业务板块、行政区划、时间段、文档编号、专家、词、词频。对于空值需要设定合理的默认值。为了便于分析，需要将时间段等连续值进行离散化处理。

再其次，需要考虑数据的层级。

业务板块和行政区划都存在分级的情况。在初期，为了简化问题，将行政区划做扁平化处理，认为只有一个层级。但后续处理过程中，根据数据密度的不同，可能将本来同一个级别的数据，合并若干稀疏的行政区划，对数据过密的区划进行进一步的拆分。
对于业务板块，本身是树形结构，先按最细的粒度分析，稍后可以实现roll up和drill down的功能。时间段，也可以按不同粒度分析。

最后，考虑数据处理的策略和频度。

由于数据条目中间不存在复杂关系，天然支持Map-Reduce处理架构，支持依据timestamp增量处理。

1.2、具体实现

1.2.1、分析结果的格式

首先，定义保存分词结果的表。

create table doc_word_segmentation{
    doc_id          varchar2(32),
    busi_sector     varchar2(30),
    busi_prop1      varchar2(100),
    busi_prop2      varchar2(100),
    busi_prop3      varchar2(100),
    busi_prop4      varchar2(100),
    busi_prop5      varchar2(100),
    reg_org         varchar2(9),
    timespan        varchar2(8),
    inspector       varchar2(32),
    word            varchar2(200),
    cnt             number(18,0)
}

这个表是中间过程表，保持了数据的最细粒度，可以通过word反查得到doc_id，从而可以回溯原始数据。

假设原数据有2000万条，每天增加4000条，每条分词得到50个词。
那么这个表将有10亿条记录，每天增加20万条。

效率不太高，不能保存所有的记录。
如果只保存当前半年的，那么共3600万条记录，貌似可以接受了。
更极端的情况，这个表可以只用做保存中间结果，汇总后即删除掉临时数据。

对于半年以前的数据，汇总后，只保存汇总后的结果。

对上表汇总后得到：

create table doc_word_statistics{
    word            varchar2(200),
    busi_sector     varchar2(30),
    busi_prop1      varchar2(100),
    busi_prop2      varchar2(100),
    busi_prop3      varchar2(100),
    busi_prop4      varchar2(100),
    busi_prop5      varchar2(100),
    reg_org         varchar2(9),
    timespan        varchar2(8),
    inspector       varchar2(32),
    cnt             number(18,0)
}

这个表的数据是我们真正需要的。
是后续工作的基础。

1.2.2、分词算法

可供选择的中文分词算法很多。
暂时不考虑需要License的。

先试试je-analysis和IKAnalyzer。
找jar包，写代码很简单，不冗述。jar包可能存在和lucene兼容的问题，不一定找最新的，先实现，以后再慢慢优化。

字典需要慢慢积累，需要自动给出建议，批量审核入库。

1.2.3、代码实现

通过实现以下函数最终实现程序功能：

interface TextAnalyzer{
    /**
     * 返回分词结果，Map的key为word，value为word在文档中出现的次数。
     */
    Map<String,Long> wordSegmentat(String text);

    /**
     * 分析文档，得到分析结果数据。
     * 可进一步汇总，或暂时先入库保存。
     */
    List<DocWordSegmentationDomainObject> analyzeDoc(String docId);

    /**
     * 用于多worker协作执行大批量分析任务。
     * timespan 可以是 201501 也可以是 20150520 ，甚至是 2015052001。
     * 视数据量而定。
     */
    void analyzeByTimespan(String timespan);

    /**
     * 对分词结果进行汇总。
     */
    void statistics(String timespan);
}

2、按纬度统计

基于数据预处理的结果，很容易通过SQL获得按纬度统计的结果。

既然提到“纬度”了，要不要借助Mondrian等工具定义一个Cube，通过jPilot展现看看呢？
这不是核心需求。而且想要使用这两个工具达到生产级的要求，太麻烦。

stationxp

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
文本内容分析和智能反馈（2）－数据预处理和按纬度统计

书接上文，考虑4个核心功能的实现，先考虑：数据预处理和按纬度统计。1、数据预处理1.1、基本原则首先，考虑数据的格式。业务数据是保存在关系型数据库中的。数据分析的部分，我们将使用Weka，虽然Weka习惯ARFF格式，为了实现数据分析和提取的自动化，我们将通过Weka的JDBC接口为其提供数据。这样，可以使用ETL工具或者通过程序代码执行SQL实现数据提取和格式转换。在开发阶段，我们基本上可以将
复制链接

扫一扫