@陈利人
有10个文件,每个文件1G,每个文件的每行存放的都是用户的query(请自己随机产生),每个文件的query都可能重复。要求你按照query的频度排序。
有10个文件,每个文件1G,每个文件的每行存放的都是用户的query(请自己随机产生),每个文件的query都可能重复。要求你按照query的频度排序。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# leijun00@gmail.com
import os
import sys
import random
PRE = 'url_'
FILE_COUNT = 100
LINE_COUNT = 100000
def generate_test_file():
domain_list= list()
dir_list =list()
keyword_list= list()
f_domain =open('domain.txt')
f_dir =open('dir.txt')
f_keyword =open('keyword.txt')
for line inf_domain:
domain_list.append(line.strip())
for line inf_dir:
dir_list.append(line.strip())
for line inf_keyword:
keyword_list.append(line.strip())
len_domain =len(domain_list)
le