m0_68143976-CSDN博客

原创数据仓库理论知识

数据仓库（英文：Date Warehouse，简称数仓、DW），是一个用于数据存储、分析、报告的数据系统。数据仓库的建设目的是面向分析的集成化数据环境，其数据来源于不同的外部系统，其结果开放给不同外部应用使用，为企业提供决策支持；

2024-09-06 16:11:05 984

如果A表和B表的连接基于某些键是匹配的，那么结果集将只包含那些在两个表中都能找到匹配行的记录。由于A表有5行，B表有3行，但实际匹配的数据可能会少于这个总和，取决于具体的连接条件。如果每行A都有对应的B表中的行，结果将是匹配行数；如果不是，结果将只有匹配的部分。: 这种情况下，A表的所有5行数据都会被包含在结果集中，即使在B表中没有找到匹配的行。对于A表中每一行，如果能找到B表中的匹配行，列值将取自B表；因此，结果集会有A表的5行，加上B表中匹配的3行，以及A表剩余2行的NULL值填充。

2024-09-06 14:47:04 1031

原创 SQL基础40题

select c.cid from course c inner join teacher t on c.tid=t.tid where t.tname='张三'1、查询“01”课程比“02”课程成绩高的所有学生的学号。5、查询没学过“张三”老师课的同学的学号、姓名；3、查询所有同学的学号、姓名、选课数、总成绩。where tname like '李%'2、查询平均成绩大于60分的同学的。4、查询姓“李”的老师的个数；

2024-08-23 19:06:52 370

原创大厂笔试SQL题

大厂面试sql手撕题目总结_手撕sql-CSDN博客常见大厂SQL笔试面试题总结_sql笔试题-CSDN博客Hive常用窗口函数实战-腾讯云开发者社区-腾讯云问题描述：sql实现：group by+sum(if())/case when解1：select year, sum(if(month = 1,amount,0)) as m1, sum(if(month = 2,amount,0)) as m2, sum(if(month = 3,amount,0)) as m3, sum(if(month

2024-08-22 17:56:45 1179

原创 SQL金典题

在工作中其实用的是 row_number() over() 的变种，用 @。关于@的使用有时间我写写。dt（分区格式yyyy-MM-dd),product_line, order_id,car_id, driver_id,is_finish,is_cancel,start_time,end_time。dt（分区格式yyyy-MM-dd),product_line, order_id,car_id, driver_id,is_finish,is_cancel,start_time,end_time。

2024-07-31 15:20:24 901

原创 PYTHON实战项目之物流信息

data1['按时交货率'] = data1['按时交货']/(data1['按时交货']+data1['晚交货'])data2['按时交货率'] = data2['按时交货']/(data2['按时交货']+data2['晚交货'])data2['按时交货率'] = data2['按时交货']/(data2['按时交货']+data2['晚交货'])data4['按时交货率'] = data4['按时交货']/(data4['按时交货']+data4['晚交货'])

2024-05-15 20:16:23 998

原创 Python将Excel文件按照特定的行数拆分为独立文件

在Pandas中， shape 属性返回一个元组，包含两个元素，第一个元素表示行数，第二个元素表示列数。因此， df.shape[0] 就表示DataFrame中的行数。enumerate() 函数是 Python 中的一个内置函数，用于将一个可迭代对象（例如列表、元组、字符串等）转换为一个枚举对象。枚举对象包含了可迭代对象中的每个元素的索引和对应的值，可以方便地在循环中同时获取元素的索引和值。# 将excel文件按照指定的行数拆分为文件。# 保存拆分后的数据为多个Excel文件。# 读取Excel文件。

2024-05-11 16:55:47 634

原创将EXCEL文件中的Sheet文件拆分为独立文件和合并为一个文件

这样可以使代码更加简洁和易读。all_data=pd.concat([all_data,individul_sheet],axis=0,ignore_index=True)#方法一，通过concat合并数据。# all_data=all_data._append(individul_sheet,ignore_index=True)#方法二，通过_append追加数据。data_individul.to_excel(out_files,index=False) #将读取的sheet写入到创建的空的文件名。

2024-05-10 20:24:12 650

原创 Python的plot绘图设置中文显示

绘图设置中文显示

2024-05-09 14:53:21 1335

原创餐店订单数据分析项目总结

项目总结

2024-05-09 14:41:49 190

原创餐店订单数据分析实战

color除了 'r' （红色）、 'm' （品红色）、 'b' （蓝色）、 'y' （黄色）、 'g' （绿色）之外，常用的颜色还包括： - 'c' ：青色 - 'k' ：黑色 - 'w' ：白色 - 'orange' ：橙色 - 'purple' ：紫色 - 'brown' ：棕色 - 'pink' ：粉色。data['total_amounts'] = data['counts']*data['amounts'] #统计单道菜的总额。plot.xlabel('订单ID',fontsize=16)

2024-05-09 00:10:31 819

原创 PYTHON补全缺失值

你可能不想滤除缺失数据（有可能会丢弃跟它有关的其他数。⽅法是最主要的函数。据），⽽是希望通过其他⽅式填补那些。，就可以实现对不同的列填充不同的。有效的那些插值⽅法也可⽤于。只要有些创新，你就可以利⽤。若是通过⼀个字典调⽤。

2024-05-06 23:05:21 1072 1

原创 PYTHON处理缺失值（删除）

是不存在的数据或者虽然存在，但是没有观察到（例如，数据采。当进⾏数据清洗以进⾏分析时，最好直接对。缺失数据进⾏分析，以判断数据采集的问题或缺失数据可能导致。项⽬中还在不断优化内部细节以更好处理缺失数据，像。在许多数据分析⼯作中，缺失数据是经常发⽣的。标之⼀就是尽量轻松地处理缺失数据。中呈现的⽅式有些不完美，但对于⼤多数⽤。过滤掉缺失数据的办法有很多种。⾏的问题涉及时间序列数据。有描述性统计默认都不包括缺失数据。语⾔中的惯⽤法，即将缺失值表示为。列出了⼀些关于缺失数据处理的函数。，去除了许多恼⼈的细节。

2024-05-06 22:42:13 866 1

原创 PYTHON的数据库交互

在商业场景下，⼤多数数据可能不是存储在⽂本或Excel⽂件中。基于SQL的关系型数据库（如SQL ServerPostgreSQL和MySQL等）使⽤⾮常⼴泛，其它⼀些数据库也很流⾏。数据库的选择通常取决于性能、数据完整性以及应⽤程序的伸缩性需求。将数据从SQL加载到DataFrame的过程很简单，此外pandas还有⼀些能够简化该过程的函数。例如，我将使⽤SQLite数据库（通过Python内置的sqlite3。

2024-05-05 14:25:14 658 2

原创 PYTHON的字典

字典可能是Python最为重要的数据结构。它是键值对的⼤⼩可变集合，键和值都是Python对象。update如果原字典有的键值对出现在融合的字典时则进行覆盖，如果没有则添加。update⽅法是原地改变字典，因此任何传递给update的键的键的值都会被舍弃。关于设定值，常⻅的情况是在字典的值是属于其它集合，如列表。有效的键类型字典的值可以是任意Python对象，⽽键通常是不可变的标量类。keys和values是字典的键和值的迭代器⽅法。因为字典本质上是2元元组的集合，dict可以接受2元元组的列。

2024-04-19 16:20:12 340 1

原创 PYTHON的Web API交互

pd.set_option('display.max_columns', int) int表示你要返回的列数；设置最大显示的列数为None，意味着不限制显示所有列。花费⼀些精⼒，你就可以创建⼀些更⾼级的常⻅的。我们可以直接传递数据到。我们可以直接传递数据到。⽅法会返回⼀个包含被解析过的。中的每个元素都是⼀个包含所有。中的每个元素都是⼀个包含所有。或其他格式提供数据的公共。主题，我们可以发⼀个。许多⽹站都有⼀些通过。对象，⽅便进⾏分析。

2024-04-18 16:31:38 262 1

原创 PYTHON读取和写入Microsoft Excel⽂件

writer._save() #此处要注意的是，使用write.save()可能会报错，得在save前面加下划线，使用write._save()将数据写到创建的文件，并关闭文件，以确保数据已经写入；Project/example/就可以访问ex2.xlsx文件了。如果要读取⼀个⽂件中的多个表单，创建。格式，你必须⾸先创建⼀个。存储在表单中的数据可以。也可以将⽂件名传递到。在指定保存的文件路径。

2024-04-18 11:28:21 313 1

原创 PYTHON列表的操作

list.extend(list1),extend可以单次向列表中添加多个元素，可以理解为完成另外一个列表复制。list.remove(x)表示将列表中的x元素删除，当x元素重复时，删除列表中第一次出现的x元素。list.insert([],x)，[]表示列表元素的索引位置，表示将x元素添加到指定的索引位置。list.append(x)将x元素添加到列表list中，默认添加到列表元素末尾。list.pop(list[])表示删除指定的list下标的元素。

2024-04-18 09:26:33 309 1

原创 PYTHON的reversed函数

要记住reversed是⼀个⽣成器（后⾯详细介绍），只有实体化。（即列表或for循环）之后才能创建翻转的序列。reversed函数。

2024-04-18 09:13:40 544 1

原创 python的zip函数

zip的常⻅⽤法之⼀是同时迭代多个序列，可能结合enumerate。给出⼀个“被压缩的”序列，zip可以被⽤来解压序列。zip可以将多个列表、元组或其它序列成对组合成⼀个元组列。作把⾏的列表转换为列的列表。

2024-04-18 08:57:50 489 1

原创 PYTHON的sorted函数

sorted函数可以接受和sort相同的参数。

2024-04-18 08:40:46 122 1

原创 python列表的切片

开始和结束可以用‘:’来表示，也可以省略，[:5]表示切取下标为5之前所有的元素，这里省略了开始位置，默认从0开始，而[5:]表示切取下标大于等于5的所有元素，这里省略了结束下标，默认列表的最后一个元素的下标。切片一般是以[start:stop]形式存在的，其中开始的下标元素是包含在切片里面的，结束stop的下标元素不包含在切片里，这是前闭后开原理。切片还有一个形式:[start:stop:step]，step表示步进，每隔几位数提取一个数。切片也可以从列表末尾开始，最末为从-1开始索引。

2024-04-17 19:56:29 349 2

原创 Python的二分搜索和插入bisect模块

【代码】Python的二分搜索和插入bisect模块。

2024-04-17 10:04:28 173 1

原创使用HDF5格式

HDFStore支持俩种存储模式，‘fixed’和‘table’，后者速度更慢，但支持一种特殊语法的查询操作。统式的节点结构，它使你能够存储多个数据集并⽀持元数据。⾼效地存储重复模式数据。对于那些⾮常⼤的⽆法直接放⼊内存。是⼀种存储⼤规模科学数组数据的⾮常好的⽂件格式。就是不错的选择，因为它可以⾼效地分块读。⽀持多种压缩器的即时压缩，还能更。⽂件中的对象可以通过与字典⼀样的。了更为⾼级的接⼝，可以简化存储。库，带有许多语⾔的接⼝，如。指的是层次型数据格式。⽂件都含有⼀个⽂件系。

2024-04-16 17:32:47 530 1

原创二进制格式：pandas的to_pickle

知识点：python内建pickle序列化模块操作是存储数据，to_pickle将数据以pickle格式写入硬盘，read_pickle用于读取硬盘上序列化的数据。pandas对象拥有一个to_pickle方法可以将数据以pickle格式写入硬盘。实现数据的⾼效⼆进制格式存储最简单的办法之⼀是使⽤。仅建议⽤于短期存储格式。虽然我尽⼒保证这种事情不会发⽣在。中，但是今后的某个时候说不定还是得。化的数据，或是使⽤更为⽅便。的对象可能⽆法被后续版本的。对象都有⼀个⽤于将数据以。

2024-04-16 15:54:54 353 1

原创数据加载JSON数据

第二个打印语句`print(data.to_json(orient='records'))`将`data`对象转换为JSON格式的字符串，并打印出来。在`to_json`方法中，`orient='records'`参数将DataFrame对象转换为一个包含多个记录的JSON数组，每个记录由一个字典表示，其中键为列标签，值为对应的值。2. 序列化：Python对象可以通过序列化工具将其转换为JSON数据，如json.dumps()方法，而JSON数据本身就是一种序列化的数据格式。

2024-04-15 23:26:49 1007 1

原创数据加载文件存储格式

dates=pd.date_range('1/1/2000',periods=7)#使用 pandas 的 date_range() 函数生成一个包含从 '2000年1月1日' 开始的连续7天日期的日期索引。ts=pd.Series(np.arange(7),index=dates)#创建一个 pandas Series 对象，其中包含从 0 到 6 的连续整数作为数据，使用上一步生成的日期索引作为索引。使用DataFrame的to_csv方法，可以将数据导出为逗号分隔的文件。

2024-04-15 18:45:22 1055 1

m0_68143976的博客