海量日志数据,提取出某日访问百度次数最多的那个IP的C++实现源代码

  1、海量日志数据,提取出某日访问百度次数最多的那个IP。

  此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。

  再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。

     IP地址最多有2^32=4G种取值可能,所以不能完全加载到内存中。可以考虑分而治之的策略,按照IP地址的hash(IP)%1024值,将海量日志存储到1024个小文件中。每个小文件最多包含4M个IP地址。对于每个小文件,可以构建一个IP作为key,出现次数作为value的hash_map,并记录当前出现次数最多的1个IP地址。有了1024个小文件中的出现次数最多的IP,我们就可以轻松得到总体上出现次数最多的IP。

 

编码思路:1、生成若干个子文件;2、对于每个小文件,可以构建一个IP作为key,出现次数作为value的hash_map;3、获取每个子文件中访问次数最多的键值对;4、获取所有文件中访问次数最多的键值对,即对每个子文件中访问最多的键值对求取最大值。

 

#include "StdAfx.h"
#include <atlstr.h>
#include <hash_map>
#include <string>
#include <iostream>
#include <time.h>
using namespace std;
using namespace stdext;

#define FileNum (1024)

//typedef CString ClassA;
class MyString: public CString{
public:
	inline size_t hash_value(const MyString& str) const
	{ 
		size_t value = _HASH_SEED; 
		size_t size  = str.GetLength(); 
		if (size > 0) { 
			size_t temp = (size / 16) + 1; 
			size -= temp; 
			for (size_t idx = 0; idx <= size; idx += temp) { 
				value += (size_t)str[(int)idx]; 
			} 
		} 
		return(value); 
	}
};

template<class _Tkey> 
class MyHashCompare : public hash_compare<_Tkey> 
{ 
public: 
	size_t operator()(const _Tkey& _Key) const 
	{ 
		return(_Key.hash_value(_Key));//此处需要注意更改 
	}

	bool operator()(const _Tkey& _Keyval1, const _Tkey& _Keyval2) const
	{ 
		return (comp(_Keyval1, _Keyval2)); 
	} 
};

typedef pair<MyString, int> MyPair;
MyPair MaxValue(hash_map<MyString, int, MyHashCompare<MyString>> ipMap)//求每个hash_map最大值
{
	hash_map<MyString,int>::iterator iter = ipMap.begin();
	MyString maxStr=(*iter).first;
	int maxNum=(*iter).second;
	iter++;
	int countNum=0;
	//int* intArray=new int[10*1024*1024];//10M
	while (iter != ipMap.end())
	{
		if (maxNum<(*iter).second)
		{
			maxStr=(*iter).first;
			maxNum=(*iter).second;
		}
		iter++;
	}	
	//int maxNum=MaxValue(intArray,countNum);
	//delete[] intArray;
	MyPair tempPair;
	tempPair.first=maxStr;
	tempPair.second=maxNum;
	return tempPair;
}

MyPair MaxKey(MyPair* tempPairs, int num)
{
	MyPair tempPair;
	MyString maxStr=tempPairs[0].first;
	int maxNum=tempPairs[0].second;
	for (int i=1; i<num; i++)
	{
		if (maxNum<tempPairs[i].second)
		{
			maxStr=tempPairs[i].first;
			maxNum=tempPairs[i].second;
		}
	}
	tempPair.first=maxStr;
	tempPair.second=maxNum;
	return tempPair;
}

int main()
{
	hash_map<MyString, int, MyHashCompare<MyString>> ipMap[FileNum];
	FILE* fpData[FileNum];
	MyPair tempPairs[FileNum];
	int iFileNum=0;

	//FILE* fp=fopen("data.txt","wb");
	//生成5个文件
	MyString strTemp1,strTemp2;
	for (int i=101; i<=200; i++)
	{
		//strTemp.Format("192.168.0.%d-%d|",i,rand());
		if ((i-1)%20==0)
		{
			MyString strTemp;
			strTemp.Format("data%d.txt",++iFileNum);
			fpData[iFileNum-1]=fopen((LPSTR)(LPCTSTR)strTemp,"wb");//fpData[0]==data1.txt
		}
		strTemp1.Format("192.168.0.%d\r\n",i);
		fwrite(strTemp1,1,strTemp1.GetLength(),fpData[iFileNum-1]);
		strTemp2.Format("%d\r\n",rand());
		if (i%20==0)
		{
			strTemp2.Format("%d",rand());//最后一行不换行
		}
		fwrite(strTemp2,1,strTemp2.GetLength(),fpData[iFileNum-1]);
		//hmap.insert(MyPair(strTemp,i+1));
	}
	for (int j=0; j<iFileNum; j++)
	{
		fclose(fpData[j]);
	}

	//5个文件存入hash_map
	for (int k=0; k<iFileNum; k++)
	{
		MyString strTemp;
		strTemp.Format("data%d.txt",k+1);
		fpData[k]=fopen((LPSTR)(LPCTSTR)strTemp,"rb");//fpData[0]==data1.txt
		while (!feof(fpData[k]))
		{
			char tempIP[25];
			MyString strIP;
			MyString strNum;
			//fgets((LPSTR)(LPCTSTR)strIP,25,fpData[k]);//读取一行,第二个参数为最大长度
			fgets(tempIP,25,fpData[k]);
			strIP.Format("%s",tempIP);//此处strIP=tempIP会出错,MyString为CString的子类
			strIP.TrimRight();//去除右边处空格(不去除strIP包含空行字符,会被strNum覆盖)
			cout<< "strIP==" << strIP<< endl;
			fgets((LPSTR)(LPCTSTR)strNum,15,fpData[k]);
			cout<< "strNum==" << _ttoi(strNum)<< endl;
			ipMap[k].insert(MyPair(strIP,_ttoi(strNum)));
			//cout<< "strIP==" << MyPair(strIP,_ttoi(strNum)).first<< endl;
			//cout<< "strNum==" << MyPair(strIP,_ttoi(strNum)).second<< endl;
		}
	}

	//int intArray[5]={8,10,6,5,3};
	//cout << "Max==" << MaxValue(intArray,5)<< endl;

	for (int k=0; k<iFileNum; k++){
		tempPairs[k].first=MaxValue(ipMap[k]).first;
		tempPairs[k].second=MaxValue(ipMap[k]).second;
		cout << "Max==" << tempPairs[k].first << "--" << tempPairs[k].second<< endl;
	}
	MyPair m_maxPair=MaxKey(tempPairs,iFileNum);
	cout << "Max==" << m_maxPair.first << "--" << m_maxPair.second<< endl;//访问次数最多的IP
	for (int j=0; j<iFileNum; j++)
	{
		fclose(fpData[j]);
	}

	system("pause");
	return 0;
}


 

 

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值