Django REST Framework千万级数据量拆表实践

场景

产品基于Django rest framework、Mysql开发。随着产品发展,部分模型数据量日益增涨,每月达到千万级数据,严重影响性能。
这里以项目实际场景中的Order(订单表)来展开
需求:
1、基本查询,查看历史订单。
2、看板输出,查看每天销售情况,计算订单表中的金额、成本、毛利等字段。

方案分析

性能下降一方面是数据量过大,另一方面是该表承担着频繁的计算请求。以Django对Order(订单表)金额字段计算为例

result = models.Order.objects.filter(pk='test',time__gte='2022-01-01').aggregate(total_money=SUM('money'))

数据库中实际执行的sql

SELECT SUM(money) From Order where pk='test' AND time>='2022-01-01';

即时有索引,每次从磁盘读取的数据依然很大,而且随着数据量的增长,每次读取的数据会越来越大。但是用于计算的只是符合时间要求的一小部分,所以采取冷热分离的思路。冷表存储基本查询的数据,热表存储经常计算的数据。
根据业务量,这里的订单表按时间月份来划分。热表只存当天、昨天的数据。因为昨天数据用于晚上的定时任务计算产出报表,当天数据用于看板实时计算。这里一天平均的数据量大概50w左右,存两天就100w出头的数据。至于以后业务量会不会发展到一天500w数据,是很遥远的事情。就先不考虑了
在这里插入图片描述

项目改动

1、数据迁移

这里的案例是热表只存两天数据,也就是说每天凌晨0点就要迁移前一天的数据到冷表。
在这里插入图片描述
当03-18日0点到来的时候,03-16的数据会迁移到冷表中。
实现:
配置Crontab 任务,每天0点执行。本次实践中,一百万数据左右,3分钟不到就执行完了。

table_name_date=$(date "+%Y%m")  # 数据导入的月份表
month_table=$(date "+%Y%m")    # 月份表
run_date=$(date "+%Y%m%d")       # 脚本执行日期
this_month_first_day=$(date "+%Y%m01")   # 本月第一天 2022-04-01
this_month_second_day=$(date "+%Y%m02")  # 本月第二天 2022-04-02
# 脚本执行日期 = 本月第一\二天,月份表为上月
if [ "$run_date" = "$this_month_second_day" ] || [ "$run_date" = "$this_month_first_day" ];then 
        table_name_date=$(date -d "last month" +%Y%m)
fi
# 登录数据库
mysql -u root -proot <<EOF        # 这里必须是root账号
use test_databases;
# 建表
CREATE TABLE IF NOT EXISTS order_$month_table LIKE order;
# 从热表迁移前天的数据
SELECT * FROM order WHERE Time < DATE_SUB(CURDATE(),INTERVAL 1 DAY) INTO OUTFILE 'order_daily_transfrom_$run_date';
# 导入数据到冷表
LOAD DATA INFILE 'order_daily_transfrom_$run_date' REPLACE INTO TABLE order_$table_name_date;
# 从热表中删除旧数据
DELETE FROM order WHERE Time < DATE_SUB(CURDATE(),INTERVAL 1 DAY);
EOF
2、项目代码修改

上面提到的两个需求中,查看历史订单是需要看到所有的订单。但是原来接口是DRF基于单表提供的。

class OrderViewSet(ViewSet):
    serializer_class = serializers.OrderSerializer
    queryset = models.Order.objects.filter()
    permission_classes = (permissions.LoginRequire,)
    authentication_classes = (authentications.TokenAuthentication,)
    filter_backends = (DjangoFilterBackend, SearchFilter, OrderingFilter)

历史数据拆到冷表后,就需要对代码做出调整。其中包括:Models类,list(),get_queryset()。
Model:

class Order(models.Model):
    """
    原----订单模型
    """
    id = models.CharField(db_column='Id', primary_key=True,max_length=50, editable=False)
    time = models.DateTimeField(verbose_name='时间', db_column='Time')
    # 省略部分字段

    class Meta:
        verbose_name = '订单'
        verbose_name_plural = verbose_name
        db_table = 'order'
# 补充模型
class HistoryOrder(models.Model):
    """
    冷表----订单模型
    """
    id = models.CharField(db_column='Id', primary_key=True,max_length=50, editable=False)
    time = models.DateTimeField(verbose_name='时间', db_column='Time')
    # 省略部分字段

    class Meta:
    	abstract = True
        verbose_name = '订单'
        verbose_name_plural = verbose_name
        db_table = 'order'
     @classmethod
    def get_table_name(cls, suffix):
        # 修改表后缀,默认是当月order_202203
        table_name = 'order_%s' % suffix if suffix else 'order_%s' % datetime.strftime(datetime.now(), "%Y%m")
        return table_name

    @classmethod
    def sharding_get(cls, name=None):
        # 获取model实例
        new_cls = cls.get_table_model(name)
        return new_cls

    _table_model = {}

    @classmethod
    def get_table_model(cls, suffix: str):
        """
        创建模型
        """
        # 要连接的数据表,
        table_name = cls.get_table_name(suffix)
        if table_name in cls._table_model:
            return cls._table_model[table_name]

        # 这里会重新设置创建的model的名字,每个model名字都是动态的,不是BaseTable
        class Metaclass(models.base.ModelBase):
            def __new__(cls, name, bases, attrs):
                name = name + '_%s' % suffix  # 这是Model的name.
                return models.base.ModelBase.__new__(cls, name, bases, attrs)

        # 注意继承的顺序
        class NewOrder(HistoryOrder, metaclass=Metaclass):
            class Meta:
                db_table = table_name

        NewOrder._meta.db_table = table_name
        cls._table_model[table_name] = NewOrder
        return NewOrder

Viewset:

class OrderViewSet(ViewSet):
    serializer_class = serializers.OrderSerializer
    queryset = models.Order.objects.filter()
    permission_classes = (permissions.LoginRequire,)
    authentication_classes = (authentications.TokenAuthentication,)
    filter_backends = (MyFilterBackend, SearchFilter, OrderingFilter)
	def list(self, request, *args, **kwargs):
	 	date = self.request.GET.get('date', '')   # 以往月份数据需要按请求参数拼接
	 	queryset = self.filter_queryset(self.get_queryset())  # 原order表对应的queryset
	 	if not date or date == datetime.strftime(datetime.now(), "%Y%m"): # 默认返回本月数据
	 		history_queryset = models.HistoryOrder.sharding_get().objects.filter(pk=pk)
            history = self.filter_queryset(history_queryset)  # 筛选
            # 以当前时间为例,拼接order_202203 union order
            queryset = queryset.union(history).order_by('-create_time') 
        if date and date != datetime.strftime(datetime.now(), '%Y%m'):
        	#2022
        	history_queryset = models.HistoryOrder.sharding_get(date ).objects.filter(pk=pk)  
        	queryset = self.filter_queryset(queryset)  # 筛选
       	page = self.paginate_queryset(queryset)  # 分页处理
       	# your code
       	return 
    def get_quertset(self):
    	# 按需修改
    	# your code
    	return

DRF的进一步封装,提高了开发效率,但是自定义开发的灵活性也相对受到限制。
这里需要注意一个地方,就是 filter_backends =(DjangoFilterBackend, SearchFilter, OrderingFilter),DjangoFilterBackend中有个代码片段,判断queryset和filter_queryset采用的模型是否为另一个的子类

        if filterset_class:
            # filterset_model = filterset_class._meta.model

            # FilterSets do not need to specify a Meta class
            # if filterset_model and queryset is not None:
            #     assert issubclass(queryset.model, filterset_model), \
            #         'FilterSet model %s does not match queryset model %s' % \
            #         (filterset_model, queryset.model)

            return filterset_class

这里的处理是重写DjangoFilterBackend为MyFilterBackend,把这部分代码注释掉。这里要保证模型中冷表和热表的两个模型字段是一样的。
目前这么处理没发现会有什么问题,也不影响正常的业务数据请求。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Django-REST-framework 中,可以通过使用 SerializerMethodField 和 Serializer 类中的不同序列化器来从两个没有关联的表中查询数据并返回给前端。 下面是一个示例: ```python # models.py class Book(models.Model): title = models.CharField(max_length=100) author_name = models.CharField(max_length=50) publisher_name = models.CharField(max_length=50) class Publisher(models.Model): name = models.CharField(max_length=50) city = models.CharField(max_length=50) ``` 在这个示例中,Book 模型类和 Publisher 模型类没有直接的关联关系。 为了在 API 中返回 Book 和 Publisher 的数据,可以创建一个新的序列化器类,并使用 SerializerMethodField 来查询 Publisher 的数据。 ```python # serializers.py from rest_framework import serializers from .models import Book, Publisher class PublisherSerializer(serializers.ModelSerializer): class Meta: model = Publisher fields = ('name', 'city') class BookSerializer(serializers.ModelSerializer): publisher = serializers.SerializerMethodField() class Meta: model = Book fields = ('title', 'author_name', 'publisher') def get_publisher(self, obj): publisher = Publisher.objects.filter(name=obj.publisher_name).first() return PublisherSerializer(publisher).data ``` 在 BookSerializer 中,使用 SerializerMethodField 来定义一个虚拟字段 publisher,然后在 get_publisher 方法中查询 Publisher 数据并返回给前端。需要注意的是,在 get_publisher 中返回的是 PublisherSerializer(publisher).data,即使用 PublisherSerializer 对 Publisher 对象进行序列化。 最后,在视图函数中使用 BookSerializer 类来进行序列化。 ```python # views.py from rest_framework import generics from .models import Book from .serializers import BookSerializer class BookList(generics.ListAPIView): queryset = Book.objects.all() serializer_class = BookSerializer ``` 以上代码示例中,BookList 视图函数将返回 Book 和 Publisher 的查询结果。 需要注意的是,这种方式在查询大量数据时可能会影响性能。如果需要进行复杂的查询操作,建议使用 Django ORM 的 query 方法进行查询和过滤。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值