多个文件中的query按照频度排序

该博客介绍了一个Python脚本,用于处理包含用户query的多个文件。脚本生成100个大小为1G的文件,每个文件中query随机组合,然后按照query出现的频度进行排序。通过awk和sort命令对结果进行处理并输出到result.txt。
摘要由CSDN通过智能技术生成
@陈利人
有10个文件,每个文件1G,每个文件的每行存放的都是用户的query(请自己随机产生),每个文件的query都可能重复。要求你按照query的频度排序。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# leijun00@gmail.com

import os
import sys
import random

PRE = 'url_'
FILE_COUNT = 100
LINE_COUNT = 100000

def generate_test_file():
    domain_list= list()
    dir_list =list()
    keyword_list= list()

    f_domain =open('domain.txt')
    f_dir =open('dir.txt')
    f_keyword =open('keyword.txt')

    for line inf_domain:
        domain_list.append(line.strip())

    for line inf_dir:
        dir_list.append(line.strip())
   
    for line inf_keyword:
        keyword_list.append(line.strip())

    len_domain =len(domain_list)
    le
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值