SQL 实战处理应用数学建模

使用 SQL 实战处理2020国赛C题数据

​ 前天本人发表了一篇介绍 SQL 入门以及进阶的文章,希望对大家入门有用。但只看不练帮助不会特别大,今天我就特地找了今年国赛C题的数据,来进行简单的处理,让大家更早的接触实战。(之前那篇文章虽然写的比较多和杂,但真正应用到数据处理的时候,很多都用不到,所以不要怂哦~)

  1. 工具

    ​ 本人使用的是 DataGrip,优点是界面比较符合我的风格,和 Pycharm,IDEA,WebStorm 等都是 JetBrain 系列的,还有代码提示补充等功能。缺点就是占内存。用其他的软件也是可以的,只要能连数据库,能写SQL语句。CMD也可!

  2. 数据

    ​ 这次使用的是2020年国赛C题数据,可以从官网上进行下载,也可以使用这里的数据

    ​https://pan.baidu.com/s/1mjW4a_sg7Y4b9kx98pk4Uw 提取码: u47j

  3. 数据导入

    ​ 虽然之前的文章提到了如何从 Excel 中导入数据,但文件中的 Excel 有多个 sheet 以及 表头,操作有点麻烦,这里我就用了一个比较笨的方法。如果有比较简单的方法还请大家告知。

    1. 将 文件中的 xlsx 数据文件另存为 csv 文件,这时候他会提示选定的文件不包含多份工作表,也就是说它不能把多个 sheet 全都保存在 csv文件,只会保存当前sheet,点击确定即可。这也就表明每一个 sheet 都要进行一次这样的操作。

在这里插入图片描述

  1. 这里只对 DataGrip 的导入进行讲解,其他软件的可以自行百度。

    右击建立的table,table的键以及属性要与导入数据的列相对应,即键的个数与列的个数对应,键的类型要符合实际。
    ​ 选中要导入的csv文件,接下来会出现以下界面,如果第一行是列的名字,就选择第一行是头的选项,列也是一样的道理,接着把 编码方式 从 UTF-8 改成 GBK,最后导入即可。
    在这里插入图片描述

    ​ 如果导入过程出错的话,很大可能是因为键的数据类型与导入数据类型不匹配,比如 A00297 为 float 类型的话 极有可能是要出错的,一般情况下,table建立的时候书写的键的顺序 与 csv文件列从左到右的顺序 相对应。

  2. 数据查询提取

    这里以企业信息表以及进项发票信息表为例,来进行简单的处理

    1. 建数据库和表
 show databases;
      create database baseC;
      use baseC;
      # 企业信息表
      create table BusinessInfo
      (
          code   varchar(5),  # 企业代号
          name   varchar(30), # 企业名称
          credit varchar(2),  # 信誉评级
          break  varchar(5)   # 是否违约
      );
      # 进项发票信息表
      create table inProfit
      (
          code       varchar(5),  #企业代号
          number     varchar(10), # 发票号码
          date       date,        # 开票时间
          targetCode varchar(10), #销方单位代号
          money      float,       #金额
          tax        float,       #税额
          sum        float,       #价税合计
          status     varchar(10)  # 发票状态
      );
  1. 处理企业信息表
      # 统计企业数量
      select count(*)
      from BusinessInfo;
      # 查找未违约的企业数 96
      select *
      from BusinessInfo
      where break = '否';
      # 查找违约的企业数 27
      select *
      from BusinessInfo
      where break = '是';
      
      # 查找 A 等级的企业数 27
      select count(*)
      from BusinessInfo
      where credit = 'A';
      
      # 查找 B 等级的企业数 38
      select count(*)
      from BusinessInfo
      where credit = 'B';
      
      # 查找 C 等级的企业数 34
      select count(*)
      from BusinessInfo
      where credit = 'C';
      
      # 查找 D 等级的企业数 24
      select count(*)
      from BusinessInfo
      where credit = 'D';
  1. 进项发票信息表
	 # 查找企业的 总交易额 总税额等
      select code as '企业', sum(money) as '企业总金额', sum(tax) as '企业总税额', sum(sum) as '企业价税合计'
      from inProfit
      group by code;
      
      # 查找 企业的交易数量
      select code as '企业', count(*) as '交易数量'
      from inProfit
      group by code;
      
      # 查找企业的 总交易额 总税额等 并按照企业总金额升序排列
      select code as '企业', sum(money) as '企业总金额', sum(tax) as '企业总税额', sum(sum) as '企业价税合计'
      from inProfit
      group by code
      order by sum(money);
      
      # 查找 企业的交易数量 并按照交易数量升序排列
      select code as '企业', count(*) as '交易数量'
      from inProfit
      group by code
      order by count(*);
      
      select code       as '企业',
             YEAR(date) as '年份',
             sum(money) as '企业总金额',
             sum(tax)   as '企业总税额',
             sum(sum)   as '企业价税合计'
      from inProfit
      group by code, YEAR(date);
      
      # 按照年份查找企业的 总交易额 总税额等
      select code        as '企业',
             YEAR(date)  as '年份',
             MONTH(date) as '月份',
             sum(money)  as '企业总金额',
             sum(tax)    as '企业总税额',
             sum(sum)    as '企业价税合计'
      from inProfit
      group by code, YEAR(date), MONTH(date);
      
      # 按照年份查找企业的 总交易额 总税额等
      select code       as '企业',
             YEAR(date) as '年份',
             sum(money) as '企业总金额',
             sum(tax)   as '企业总税额',
             sum(sum)   as '企业价税合计'
      from inProfit
      group by code, YEAR(date);
      
      
      # 按照年份查找企业的 总交易额 总税额等 丢弃无效发票
      select code       as '企业',
             YEAR(date) as '年份',
             sum(money) as '企业总金额',
             sum(tax)   as '企业总税额',
             sum(sum)   as '企业价税合计'
      from inProfit
      where status = '有效发票'
      group by code, YEAR(date);
      
      # 按照年份月份查找企业的 总交易额 总税额等 丢弃无效发票
      select code        as '企业',
             YEAR(date)  as '年份',
             MONTH(date) as '月份',
             sum(money)  as '企业总金额',
             sum(tax)    as '企业总税额',
             sum(sum)    as '企业价税合计'
      from inProfit
      where status = '有效发票'
      group by code, YEAR(date), MONTH(date);
  1. 小结

    ​ 上面得到的数据不多,核心之处就是针对不同的企业将其营业额等数据根据年或者月为单位进行求和,以便于后面的预测分析。其他未处理的表也就是按照这个套路来,简短的几行代码就把数据提取出来了,想想自己当时写了几百行代码还没有提取出来的狼狈样子,数据库真是相见恨晚啊!如果大家对C题还有什么想提取的数据,我们可以一起讨论,一起进步哦~
    ​ 另外本文所涉及的代码以及提取的数据结果我已经打包有需要的请自取~
    https://pan.baidu.com/s/12fg3BlhwHw5oN9OA0UdxRw提取码: anee

DataShow是一款基于.net Framework2.0的Microsoft SQL Server数据库建模工具,工具全部采用C#代码完成。该工具旨在利用自定义表字典的功能来设计强大的数据库控件或者页面,减少开发周期和代码量。 本工具具有如下特点: 1、支持自定义表的种类,将创建的表予以分类。 在创建种类时您可以为种类设置此种表的模板列,在创建该种类的表时,工具会提示您载入模板列,这种设计可以减少同类表多次创建时的工作量。 2、种类包含一个前缀,有利于数据库表的命名规范。 3、创建/编辑表定义时,您可以拷贝、粘贴多个列以减少创建表时的工作量。 4、每个列都包含编辑格式、列宽、显示格式等多种自定义属性,在设计控件时,您可以根据这些属性为不同的字段设计不同的编辑控件。 当然除了以上列举的属性外,还有部分未被设计进本工具的属性,如验证属性、查询属性等。关于这方面的应用请参考本工具的预览功能。 5、编辑格式及预览功能支持您自行扩展的用户控件以进行更高级的设计。 您可以创建一个项目,添加对DataShow.Interfaces.dll的引用,并实现其中的接口,将编译好的DLL添加到[选项]->[插件]的列表中即可在编辑格式或预览时看到您自定义的用户控件。 6、支持对数据库关系的维护。 在创建/编辑表定义时,您都可以打开关系设计界面对关系进行维护。 7、递归式的数据库修改。 当您更改某个受关系影响的列的数据类型、长度、精度、小数位数等信息时,关系中的其他字段将随之更改,这个过程是递归的,所有与该字段有直接或间接关系引用的字段都将受到更改。 8、为更改生成SQL脚本。 使用生成SQL脚本的功能,您可以像使用企业管理器一样为任意修改生成SQL脚本,通过工具内置的SQL执行工具,您可以将更改应用于多台开发机上以保持数据库的一致。 9、与自定义控件结合,使您在做表定义时即时预览到自定义控件的绑定效果。 10、内置有SQL执行工具,该工具是一款简单的查询分析器,目的旨在将您对数据库所做的更改快速布置到其他开发机上。 复杂的SQL语句建议您使用查询分析器完成。 11、表字典生成器让您快速地将本工具使用溶入开发中。 可能您的项目已经着手开发一段时间了,即使是这样,您依然可以让本工具为您效劳。您只需打开表字典生成工具,工具会读取数据库中所有的表及字段信息,根据您的配置生成字典。 12、数据库设计文档生成功能。 文档生成工具将根据您的表定义和字段定义读取字典表中的信息并将这些信息按照您定义的方式生成数据库设计文档。生成方式采用写流方式生成,生成速度快,免去您编写数据库文档的麻烦。 13、备份、还原、收缩数据库功能。 14、表数据预览及编辑功能。 您可以在选项中关闭修改显示的表数据的功能。 15、工具包括多项人性化选项。 16、表定义说明:表工具使用初期,工具会检查您数据库中的是否已经存在Dic_Columns、Dic_Datatypes、Dic_Relation、Dic_RelationDetail、Dic_Sequence、Dic_Tables、Dic_TableTemplate以及Dic_TableType,如果您的数据库中不存在这些表,工具会自行创建。 Dic_Columns:存储字段信息,各个字段的说明请查看表字义。 Dic_Datatypes:存储数据类型信息。 Dic_Relation:存储表关系,各个字段的说明请查看表字义。 Dic_RelationDetail:存储表关系的字段关联信息,各个字段的说明请查看表字义。 Dic_Sequence:用于生成序列号,一般是用于生成主键编号,请勿修改这个表的数据。 Dic_Tables:存储表的字典信息。 Dic_TableTemplate:存储种类的字段模板,各个字段的说明请查看表字义。 Dic_TableType:存储种类信息。 关于作者: 作者:陈鹏伟 联系方式:QQ 89202269 手机:13788892380。 此工具是本人利用业余时间编写数月的成果,转载请保留作者信息。 由于水平有限且没有专门的测试人员做测试= =!BUG在所难免,如果您有任何意见或建议,或者希望索取源码,欢迎与本人联系。 特别鸣谢:张希禄 我的启蒙老师,这个工具的设计来自他关于DataShow的思路。 希望本工具能为您的开发带来方便!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值