把原始文件进行格式化处理。去掉一些噪声内容。
原始文件的格式为:
前缀,查询词,权重,过滤信息|扩展信息
其中:前缀就好比市编号。每个市下面有自己的数据。要查询的时候就要指定市。
查询词,要显示的内容。
权重,最后会把符合条件的结果按照权重进行排序。【可以为空】
过滤信息,一个short类型的数字,最后的显示结果可以根据这个值进行过滤。可以获取指定过滤信息值的结果,或者指定区间的结果等。【可以为空】
扩展信息,最后显示在结果中,让结果显示的更加丰富。【可以为空】
格式化后文件的格式为:
在原始文件的前面增加了一项,为格式化后的内容
格式化查询词后的结果,前缀,查询词,权重,过滤信息|扩展信息
#include "util/ConfigReader.h"
#include "util/ReadBigFile.h"
#include "util/WriteBigFile.h"
#include "util/XHStrUtils.h"
int CFormatFile::RunFormat(const string & strFileIn, const string & strPath, const string & strFileOut)
{
printf("path:%s; filein:%s; fileout:%s\n", strPath.c_str(), strFileIn.c_str(), strFileOut.c_str());
string strPathNew = strPath;
int iPos = strPath.size() - 1;
for(; iPos > 0; iPos--) {
if(strPath[iPos] != '\\') {
break;
}
}
if(iPos == 0) {
printf("error: RunFormat path error:%s\n", strPath.c_str());
return -1;
}
strPathNew = strPathNew.substr(0, iPos + 1);
m_strFileIn = strPathNew + "/" + strFileIn;
m_strFileOut = strPathNew + "/" + strFileOut;
return Process();
}
int CFormatFile::Process()
{
CReadBigFile fdR;
CWriteBigFile fdW;
CWriteBigFile fdWError;
string strError = m_strFileIn + ".error";
fdR.Open(m_strFileIn.c_str());
fdW.Open(m_strFileOut.c_str());
fdWError.Open(strError.c_str());
char *p;
map<string, int> mapHasCollected;
while(fdR.GetLine(p)) {
vector<string> vecSplit;
XHStrUtils::StrTokenize(vecSplit, p, ",");
if(vecSplit.size() < 2) {
string strErrMsg = "error:(less than 2 paramter)";
strErrMsg += p;
fdWError.WriteLine((const char *)strErrMsg.c_str());
continue;
}
string strValue = vecSplit[1];
XHStrUtils::FiltNoiseSymbol(strValue); //去除噪音
XHStrUtils::ToCase(strValue, false); //转换成小写
XHStrUtils::JoinMultiSpace(strValue); //把多个空格合并成一个
XHStrUtils::trim(strValue); //去除字符串两端的空格
if(strValue.size() < 2) {
string strErrMsg = "error:(after format, less than 2 charater)";
strErrMsg += p;
fdWError.WriteLine((const char *)strErrMsg.c_str());
continue;
}
string strPreAndValue = vecSplit[0] + "#" + strValue;
if(mapHasCollected.find(strPreAndValue) != mapHasCollected.end()) {
string strErrMsg = "error:(has collected key)";
strErrMsg += p;
fdWError.WriteLine((const char *)strErrMsg.c_str());
continue;
}
mapHasCollected[strPreAndValue] = 1;
string strResult = "";
//把格式化好的新的放到最前面
strResult = strValue + ",";
strResult += p;
fdW.WriteLine((const char *)strResult.c_str());
}
return 0;
}