1、海量日志数据,提取出某日访问百度次数最多的那个IP。
此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。
再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。
IP地址最多有2^32=4G种取值可能,所以不能完全加载到内存中。可以考虑分而治之的策略,按照IP地址的hash(IP)%1024值,将海量日志存储到1024个小文件中。每个小文件最多包含4M个IP地址。对于每个小文件,可以构建一个IP作为key,出现次数作为value的hash_map,并记录当前出现次数最多的1个IP地址。有了1024个小文件中的出现次数最多的IP,我们就可以轻松得到总体上出现次数最多的IP。
编码思路:1、生成若干个子文件;2、对于每个小文件,可以构建一个IP作为key,出现次数作为value的hash_map;3、获取每个子文件中访问次数最多的键值对;4、获取所有文件中访问次数最多的键值对,即对每个子文件中访问最多的键值对求取最大值。
#include "StdAfx.h"
#include <atlstr.h>
#include <hash_map>
#include <string>
#include <iostream>
#include <time.h>
using namespace std;
using namespace stdext;
#define FileNum (1024)
//typedef CString ClassA;
class MyString: public CString{
public:
inline size_t hash_value(const MyString& str) const
{
size_t value = _HASH_SEED;
size_t size = str.GetLength();
if (size > 0) {
size_t temp = (size / 16) + 1;
size -= temp;
for (size_t idx = 0; idx <= size; idx += temp) {
value += (size_t)str[(int)idx];
}
}
return(value);
}
};
template<class _Tkey>
class MyHashCompare : public hash_compare<_Tkey>
{
public:
size_t operator()(const _Tkey& _Key) const
{
return(_Key.hash_value(_Key));//此处需要注意更改
}
bool operator()(const _Tkey& _Keyval1, const _Tkey& _Keyval2) const
{
return (comp(_Keyval1, _Keyval2));
}
};
typedef pair<MyString, int> MyPair;
MyPair MaxValue(hash_map<MyString, int, MyHashCompare<MyString>> ipMap)//求每个hash_map最大值
{
hash_map<MyString,int>::iterator iter = ipMap.begin();
MyString maxStr=(*iter).first;
int maxNum=(*iter).second;
iter++;
int countNum=0;
//int* intArray=new int[10*1024*1024];//10M
while (iter != ipMap.end())
{
if (maxNum<(*iter).second)
{
maxStr=(*iter).first;
maxNum=(*iter).second;
}
iter++;
}
//int maxNum=MaxValue(intArray,countNum);
//delete[] intArray;
MyPair tempPair;
tempPair.first=maxStr;
tempPair.second=maxNum;
return tempPair;
}
MyPair MaxKey(MyPair* tempPairs, int num)
{
MyPair tempPair;
MyString maxStr=tempPairs[0].first;
int maxNum=tempPairs[0].second;
for (int i=1; i<num; i++)
{
if (maxNum<tempPairs[i].second)
{
maxStr=tempPairs[i].first;
maxNum=tempPairs[i].second;
}
}
tempPair.first=maxStr;
tempPair.second=maxNum;
return tempPair;
}
int main()
{
hash_map<MyString, int, MyHashCompare<MyString>> ipMap[FileNum];
FILE* fpData[FileNum];
MyPair tempPairs[FileNum];
int iFileNum=0;
//FILE* fp=fopen("data.txt","wb");
//生成5个文件
MyString strTemp1,strTemp2;
for (int i=101; i<=200; i++)
{
//strTemp.Format("192.168.0.%d-%d|",i,rand());
if ((i-1)%20==0)
{
MyString strTemp;
strTemp.Format("data%d.txt",++iFileNum);
fpData[iFileNum-1]=fopen((LPSTR)(LPCTSTR)strTemp,"wb");//fpData[0]==data1.txt
}
strTemp1.Format("192.168.0.%d\r\n",i);
fwrite(strTemp1,1,strTemp1.GetLength(),fpData[iFileNum-1]);
strTemp2.Format("%d\r\n",rand());
if (i%20==0)
{
strTemp2.Format("%d",rand());//最后一行不换行
}
fwrite(strTemp2,1,strTemp2.GetLength(),fpData[iFileNum-1]);
//hmap.insert(MyPair(strTemp,i+1));
}
for (int j=0; j<iFileNum; j++)
{
fclose(fpData[j]);
}
//5个文件存入hash_map
for (int k=0; k<iFileNum; k++)
{
MyString strTemp;
strTemp.Format("data%d.txt",k+1);
fpData[k]=fopen((LPSTR)(LPCTSTR)strTemp,"rb");//fpData[0]==data1.txt
while (!feof(fpData[k]))
{
char tempIP[25];
MyString strIP;
MyString strNum;
//fgets((LPSTR)(LPCTSTR)strIP,25,fpData[k]);//读取一行,第二个参数为最大长度
fgets(tempIP,25,fpData[k]);
strIP.Format("%s",tempIP);//此处strIP=tempIP会出错,MyString为CString的子类
strIP.TrimRight();//去除右边处空格(不去除strIP包含空行字符,会被strNum覆盖)
cout<< "strIP==" << strIP<< endl;
fgets((LPSTR)(LPCTSTR)strNum,15,fpData[k]);
cout<< "strNum==" << _ttoi(strNum)<< endl;
ipMap[k].insert(MyPair(strIP,_ttoi(strNum)));
//cout<< "strIP==" << MyPair(strIP,_ttoi(strNum)).first<< endl;
//cout<< "strNum==" << MyPair(strIP,_ttoi(strNum)).second<< endl;
}
}
//int intArray[5]={8,10,6,5,3};
//cout << "Max==" << MaxValue(intArray,5)<< endl;
for (int k=0; k<iFileNum; k++){
tempPairs[k].first=MaxValue(ipMap[k]).first;
tempPairs[k].second=MaxValue(ipMap[k]).second;
cout << "Max==" << tempPairs[k].first << "--" << tempPairs[k].second<< endl;
}
MyPair m_maxPair=MaxKey(tempPairs,iFileNum);
cout << "Max==" << m_maxPair.first << "--" << m_maxPair.second<< endl;//访问次数最多的IP
for (int j=0; j<iFileNum; j++)
{
fclose(fpData[j]);
}
system("pause");
return 0;
}