大规模数据处理总结

最新推荐文章于 2023-12-27 02:13:58 发布

Aa385433799

最新推荐文章于 2023-12-27 02:13:58 发布

阅读量131

点赞数

文章标签：机器学习数据挖掘 python

本文链接：https://blog.csdn.net/Aa385433799/article/details/129846419

版权

受ChatGPT的冲击，最近处理了很多数据也踩了很多坑，借此写一篇博客来记录也是回顾自己遇到的一些问题

linux相关语句查询可以参考linux命令
正则相关规则可以参考正则规则

查找目录下的全部文件并返回路径合集

def FindFile(dirpath):
	paths=[]
	for filepath,dirnames,filenames in os.walk(dirpath):
		print('当前路径为%s,共包含%d个文件'%(filepath,len(filenames)))
		for filename in filenames:
			paths.append(os.path.join(filepath,filename))
	return paths

为每一条数据生成唯一ID，使用雪花算法

class InvalidSystemClock(Exception):
    """
    时钟回拨异常
    """
    pass

# Twitter's Snowflake algorithm implementation which is used to generate distributed IDs.
# https://github.com/twitter-archive/snowflake/blob/snowflake-2010/src/main/scala/com/twitter/service/snowflake/IdWorker.scala

import time
import logging

from exceptions import InvalidSystemClock


# 64位ID的划分
WORKER_ID_BITS = 5
DATACENTER_ID_BITS = 5
SEQUENCE_BITS = 12

# 最大取值计算
MAX_WORKER_ID = -1 ^ (-1 << WORKER_ID_BITS)  # 2**5-1 0b11111
MAX_DATACENTER_ID = -1 ^ (-1 << DATACENTER_ID_BITS)

# 移位偏移计算
WOKER_ID_SHIFT = SEQUENCE_BITS
DATACENTER_ID_SHIFT = SEQUENCE_BITS + WORKER_ID_BITS
TIMESTAMP_LEFT_SHIFT = SEQUENCE_BITS + WORKER_ID_BITS + DATACENTER_ID_BITS

# 序号循环掩码
SEQUENCE_MASK = -1 ^ (-1 << SEQUENCE_BITS)

# Twitter元年时间戳
TWEPOCH = 1288834974657


logger = logging.getLogger('flask.app')


class IdWorker(object):
    """
    用于生成IDs
    """

    def __init__(self, datacenter_id, worker_id, sequence=0):
        """
        初始化
        :param datacenter_id: 数据中心（机器区域）ID
        :param worker_id: 机器ID
        :param sequence: 其实序号
        """
        # sanity check
        if worker_id > MAX_WORKER_ID or worker_id < 0:
            raise ValueError('worker_id值越界')

        if datacenter_id > MAX_DATACENTER_ID or datacenter_id < 0:
            raise ValueError('datacenter_id值越界')

        self.worker_id = worker_id
        self.datacenter_id = datacenter_id
        self.sequence = sequence

        self.last_timestamp = -1  # 上次计算的时间戳

    def _gen_timestamp(self):
        """
        生成整数时间戳
        :return:int timestamp
        """
        return int(time.time() * 1000)

    def get_id(self):
        """
        获取新ID
        :return:
        """
        timestamp = self._gen_timestamp()

        # 时钟回拨
        if timestamp < self.last_timestamp:
            logging.error('clock is moving backwards. Rejecting requests until {}'.format(self.last_timestamp))
            raise InvalidSystemClock

        if timestamp == self.last_timestamp:
            self.sequence = (self.sequence + 1) & SEQUENCE_MASK
            if self.sequence == 0:
                timestamp = self._til_next_millis(self.last_timestamp)
        else:
            self.sequence = 0

        self.last_timestamp = timestamp

        new_id = ((timestamp - TWEPOCH) << TIMESTAMP_LEFT_SHIFT) | (self.datacenter_id << DATACENTER_ID_SHIFT) | \
                 (self.worker_id << WOKER_ID_SHIFT) | self.sequence
        return new_id

    def _til_next_millis(self, last_timestamp):
        """
        等到下一毫秒
        """
        timestamp = self._gen_timestamp()
        while timestamp <= last_timestamp:
            timestamp = self._gen_timestamp()
        return timestamp


if __name__ == '__main__':
    worker = IdWorker(1, 2, 0)
    print(worker.get_id())

数据去重

从网上爬下来的数据第一步应该就是去重，去重使用set或字典dict，查找时间是o(1)，list列表的查找时间是o(n)

def ReadFile(path):
	with open(path,'r') as f:
		lines=f.readlines()
		lines=[json.loads(line) for line in lines]
	return lines

def RemoveRepetition(lines,key=None):
	mark =set()
	lines_unique=[]
	for line in lines:
		data = line[key]
		if data in mark:continue #去重
		mark.add(data)
		lines_unique.append(line)
	return lines_unique

正则筛选文本

import re
pat = ''
s=''
#第一种，直接去除
s=re.sub(pat,'',s)

#第二种，先输出span再去除
m = re.findall(pat,s)
for tmp in m:
	s,e = tmp.span()
s = s[:s]+s[e:]

Aa385433799

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫