我和我的输入提示--格式化输入文件

把原始文件进行格式化处理。去掉一些噪声内容。

原始文件的格式为:

前缀,查询词,权重,过滤信息|扩展信息

其中:前缀就好比市编号。每个市下面有自己的数据。要查询的时候就要指定市。

查询词,要显示的内容。

权重,最后会把符合条件的结果按照权重进行排序。【可以为空】

过滤信息,一个short类型的数字,最后的显示结果可以根据这个值进行过滤。可以获取指定过滤信息值的结果,或者指定区间的结果等。【可以为空】

扩展信息,最后显示在结果中,让结果显示的更加丰富。【可以为空】


格式化后文件的格式为:

在原始文件的前面增加了一项,为格式化后的内容

格式化查询词后的结果,前缀,查询词,权重,过滤信息|扩展信息


#include "isformat/FormatFile.h"
#include "util/ConfigReader.h"
#include "util/ReadBigFile.h"
#include "util/WriteBigFile.h"
#include "util/XHStrUtils.h"


int CFormatFile::RunFormat(const string & strFileIn, const string & strPath, const string & strFileOut)
{
        printf("path:%s; filein:%s; fileout:%s\n", strPath.c_str(), strFileIn.c_str(), strFileOut.c_str());
        string strPathNew = strPath;
        int iPos = strPath.size() - 1;
        for(; iPos > 0; iPos--) {
                if(strPath[iPos] != '\\') {
                        break;
                }
        }
        if(iPos == 0) {
                printf("error: RunFormat path error:%s\n", strPath.c_str());
                return -1;
        }
        strPathNew = strPathNew.substr(0, iPos + 1);
        m_strFileIn  = strPathNew + "/" + strFileIn;
        m_strFileOut = strPathNew + "/" + strFileOut;
        return Process();
}


int CFormatFile::Process()
{
        CReadBigFile fdR;
        CWriteBigFile fdW;
        CWriteBigFile fdWError;
        string strError = m_strFileIn + ".error";
        fdR.Open(m_strFileIn.c_str());
        fdW.Open(m_strFileOut.c_str());
        fdWError.Open(strError.c_str());


        char *p;
        map<string, int> mapHasCollected;
        while(fdR.GetLine(p)) {
                vector<string> vecSplit;
                XHStrUtils::StrTokenize(vecSplit, p, ",");
                if(vecSplit.size() < 2) {
                        string strErrMsg = "error:(less than 2 paramter)";
                        strErrMsg += p;
                        fdWError.WriteLine((const char *)strErrMsg.c_str());
                        continue;
                }
                string strValue = vecSplit[1];
                XHStrUtils::FiltNoiseSymbol(strValue); //去除噪音
                XHStrUtils::ToCase(strValue, false);   //转换成小写
                XHStrUtils::JoinMultiSpace(strValue);  //把多个空格合并成一个
                XHStrUtils::trim(strValue);            //去除字符串两端的空格
                if(strValue.size() < 2) {
                        string strErrMsg = "error:(after format, less than 2 charater)";
                        strErrMsg += p;
                        fdWError.WriteLine((const char *)strErrMsg.c_str());
                        continue;
                }
                string strPreAndValue = vecSplit[0] + "#" + strValue;
                if(mapHasCollected.find(strPreAndValue) != mapHasCollected.end()) {
                        string strErrMsg = "error:(has collected key)";
                        strErrMsg += p;
                        fdWError.WriteLine((const char *)strErrMsg.c_str());
                        continue;
                }
                mapHasCollected[strPreAndValue] = 1;
                string strResult = "";
                //把格式化好的新的放到最前面
                strResult = strValue + ",";
                strResult += p;
                fdW.WriteLine((const char *)strResult.c_str());
        }                     
        return 0;
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值