【程序员面试宝典】有1千万条短信,找出重复出现最多的前10条 算法实现

【程序员面试宝典】有1千万条短信,找出重复出现最多的前10条

  (2013-01-23 14:14:16)
  分类: 程序员面试宝典
题目:有1千万条短信,有重复,以文本文件的形式保存,一行一条,有重复。请用5分钟时间,找出重复出现最多的前10条。

解析:对于本题来说,某些面试者想用数据库的办法来实现:首先将文本导入数据库,再利用select语句某些方法得出前10条短信。但实际上用数据库是满足不了5分钟解决这个条件的。这是因为1千万条短信即使1秒钟录入1万条(这已经算是很快的数据录入了)5分钟才300万条。即使真的能在5分钟内录入完1千万条,也必须先建索引,不然sql语句5分钟内肯定得不出结果。但对1千万条记录建索引即使在5分钟之内都不可能完成的。所以用数据库的办法是不行的。
         这种类型的题之所以会出现,这是因为互联网公司无时无刻都在需要处理由用户产生的海量数据/日志,所以海量数据的题现在很热,基本上互联网公司都会考。重点考察的是你的数据结构设计和算法的基本功。类似题目是如何根据关键词搜索访问最多的前10个网站。

答案
方法1:可以用哈希表的方法对1千万条分成若干组进行边扫描边建散列表。第一次扫描,取首字节,尾字节,中间随便两字节作为Hash Code,插入到hash table中。并记录其地址和信息长度和重复次数,1千万条信息,记录这几个信息还放得下。同Hash Code且等长就疑似相同,比较一下。相同记录只加1次进hash table,但将重复次数加1。一次扫描以后,已经记录各自的重复次数,进行第二次hash table的处理。用线性时间选择可在O(n)的级别上完成前10条的寻找。分组后每份中的top10必须保证各不相同,可hash来保证,也可直接按hash值的大小来分类。

方法2:可以采用从小到大排序的方法,根据经验,除非是群发的过节短信,否则字数越少的短信出现重复的几率越高。建议从字数少的短信开始找起,比如一开始搜一个字的短信,找出重复出现的top10并分别记录出现次数,然后搜两个字的,依次类推。对于对相同字数的比较常的短信的搜索,除了hash之类的算法外,可以选择只抽取头、中和尾等几个位置的字符进行粗判,因为此种判断方式是为了加快查找速度但未能得到真正期望的top10,因此需要做标记;如此搜索一遍后,可以从各次top10结果中找到备选的top10,如果这top10中有刚才做过标记的,则对其对应字数的所有短信进行精确搜索以找到真正的top10并再次比较。

方法3:可以采用内存映射的办法,首先1千万条短信按现在的短信长度将不会超过1G空间,使用内存映射文件比较合适。可以一次映射(当然如果更大的数据量的话,可以采用分段映射),由于不需要频繁使用文件I/O和频繁分配小内存,这将大大提高数据的加载速度。其次,对每条短信的第i(i从0到70)个字母按ASCII嘛进行分组,其实也就是创建树。i是树的深度,也是短信第i个字母。

      该问题主要是解决两方面的内容,一是内容加载,二是短信内容比较。采用文件内存映射技术可以解决内容加载的性能问题(不仅仅不需要调用文件I/O函数,而且也不需要每读出一条短信都分配一小块内存),而使用树技术可以有效减少比较的次数。

代码如下:
struct TNode
{
     BYTE *pText;
     //直接指向文件映射的内存地址
     DWORD dwCount;
     //计算器,记录此节点的相同短信数
     TNode *ChildNodes[256];
     //子节点数据,由于一个字母的ASCII值不可能超过256,所以子节点也不可能超过256
     TNode()
     {
           //初始化成员
     }
     ~TNode()
     {
            //释放资源
     }
};
 
//int nIndex是字母下标
void CreateChilsNode(TNode *pNode,const BYTE* pText,int nIndex)
{
      if(pNode->ChildNodes[pText[nIndex]]==NULL)
      {
            //如果不存在此子节点,就创建.TNode构造函数应该有初始化代码
            //为了处理方便,这里也可以在创建的同时把此节点加到一个数组中
            pNode->ChildNodes[pText[nIndex]]=new TNode;
      }
      if(pText[nIndex+1]=='\0')
      {
               //此短信已完成,计数器加1,并保存此短信内容
               pNode->ChildNodes[pText[nIndex]]->dwCount++;
               pNode->ChildNodes[pText[nIndex]]->pText=pText;
      }
      else    //if(pText[nText]!='\0')
      {
              //如果还未结束,就创建下一级节点
              CreateNode(pNode->ChildNodes[pText[nIndex]],pText,nText+1);
      }
}

//创建根节点,pTexts是短信数组,dwCount是短信数量(这里是1千万)
void CreateRootNode(const BYTE **pTexts,DWOED dwCount)
{
     TNode RootNode;
     for(DWORD dwIndex=0;dwIndex<dwCount;dwIndex++)
     {
            CreateNode(&RootN,pTexts[dwIndex],0);
     }
     //所有节点按dwCount的值进行排序
     //取前10个节点,显示结果
}


转自  http://blog.sina.com.cn/s/blog_7124c26901014zcl.html
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值