自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 数据仓库理论知识

数据仓库(英文:Date Warehouse,简称数仓、DW),是一个用于数据存储、分析、报告的数据系统。数据仓库的建设目的是面向分析的集成化数据环境,其数据来源于不同的外部系统,其结果开放给不同外部应用使用,为企业提供决策支持;

2024-09-06 16:11:05 794

原创 数据分析面试题

如果A表和B表的连接基于某些键是匹配的,那么结果集将只包含那些在两个表中都能找到匹配行的记录。由于A表有5行,B表有3行,但实际匹配的数据可能会少于这个总和,取决于具体的连接条件。如果每行A都有对应的B表中的行,结果将是匹配行数;如果不是,结果将只有匹配的部分。: 这种情况下,A表的所有5行数据都会被包含在结果集中,即使在B表中没有找到匹配的行。对于A表中每一行,如果能找到B表中的匹配行,列值将取自B表;因此,结果集会有A表的5行,加上B表中匹配的3行,以及A表剩余2行的NULL值填充。

2024-09-06 14:47:04 820

原创 SQL基础40题

select c.cid from course c inner join teacher t on c.tid=t.tid where t.tname='张三'1、查询“01”课程比“02”课程成绩高的所有学生的学号。5、查询没学过“张三”老师课的同学的学号、姓名;3、查询所有同学的学号、姓名、选课数、总成绩。where tname like '李%'2、查询平均成绩大于60分的同学的。4、查询姓“李”的老师的个数;

2024-08-23 19:06:52 293

原创 大厂笔试SQL题

大厂面试sql手撕题目总结_手撕sql-CSDN博客常见大厂SQL笔试面试题总结_sql笔试题-CSDN博客Hive常用窗口函数实战-腾讯云开发者社区-腾讯云问题描述:sql实现:group by+sum(if())/case when解1:select year, sum(if(month = 1,amount,0)) as m1, sum(if(month = 2,amount,0)) as m2, sum(if(month = 3,amount,0)) as m3, sum(if(month

2024-08-22 17:56:45 940

原创 SQL金典题

在工作中其实用的是 row_number() over() 的变种,用 @。关于@的使用有时间我写写。dt(分区格式yyyy-MM-dd),product_line, order_id,car_id, driver_id,is_finish,is_cancel,start_time,end_time。dt(分区格式yyyy-MM-dd),product_line, order_id,car_id, driver_id,is_finish,is_cancel,start_time,end_time。

2024-07-31 15:20:24 769

原创 PYTHON实战项目之物流信息

data1['按时交货率'] = data1['按时交货']/(data1['按时交货']+data1['晚交货'])data2['按时交货率'] = data2['按时交货']/(data2['按时交货']+data2['晚交货'])data2['按时交货率'] = data2['按时交货']/(data2['按时交货']+data2['晚交货'])data4['按时交货率'] = data4['按时交货']/(data4['按时交货']+data4['晚交货'])

2024-05-15 20:16:23 809

原创 Python将Excel文件按照特定的行数拆分为独立文件

在Pandas中, shape 属性返回一个元组,包含两个元素,第一个元素表示行数,第二个元素表示列数。因此, df.shape[0] 就表示DataFrame中的行数。enumerate() 函数是 Python 中的一个内置函数,用于将一个可迭代对象(例如列表、元组、字符串等)转换为一个枚举对象。枚举对象包含了可迭代对象中的每个元素的索引和对应的值,可以方便地在循环中同时获取元素的索引和值。# 将excel文件按照指定的行数拆分为文件。# 保存拆分后的数据为多个Excel文件。# 读取Excel文件。

2024-05-11 16:55:47 377

原创 将EXCEL文件中的Sheet文件拆分为独立文件和合并为一个文件

这样可以使代码更加简洁和易读。all_data=pd.concat([all_data,individul_sheet],axis=0,ignore_index=True)#方法一,通过concat合并数据。# all_data=all_data._append(individul_sheet,ignore_index=True)#方法二,通过_append追加数据。data_individul.to_excel(out_files,index=False) #将读取的sheet写入到创建的空的文件名。

2024-05-10 20:24:12 443

原创 Python的plot绘图设置中文显示

绘图设置中文显示

2024-05-09 14:53:21 876

原创 餐店订单数据分析项目总结

项目总结

2024-05-09 14:41:49 128

原创 餐店订单数据分析实战

color除了 'r' (红色)、 'm' (品红色)、 'b' (蓝色)、 'y' (黄色)、 'g' (绿色)之外,常用的颜色还包括: - 'c' :青色 - 'k' :黑色 - 'w' :白色 - 'orange' :橙色 - 'purple' :紫色 - 'brown' :棕色 - 'pink' :粉色。data['total_amounts'] = data['counts']*data['amounts'] #统计单道菜的总额。plot.xlabel('订单ID',fontsize=16)

2024-05-09 00:10:31 680

原创 PYTHON补全缺失值

你可能不想滤除缺失数据(有可能会丢弃跟它有关的其他数。⽅法是最主要的函数。据),⽽是希望通过其他⽅式填补那些。,就可以实现对不同的列填充不同的。有效的那些插值⽅法也可⽤于。只要有些创新,你就可以利⽤。若是通过⼀个字典调⽤。

2024-05-06 23:05:21 780 1

原创 PYTHON处理缺失值(删除)

是不存在的数据或者虽然存在,但是没有观察到(例如,数据采。当进⾏数据清洗以进⾏分析时,最好直接对。缺失数据进⾏分析,以判断数据采集的问题或缺失数据可能导致。项⽬中还在不断优化内部细节以更好处理缺失数据,像。在许多数据分析⼯作中,缺失数据是经常发⽣的。标之⼀就是尽量轻松地处理缺失数据。中呈现的⽅式有些不完美,但对于⼤多数⽤。过滤掉缺失数据的办法有很多种。⾏的问题涉及时间序列数据。有描述性统计默认都不包括缺失数据。语⾔中的惯⽤法,即将缺失值表示为。列出了⼀些关于缺失数据处理的函数。,去除了许多恼⼈的细节。

2024-05-06 22:42:13 751 1

原创 PYTHON的数据库交互

在商业场景下,⼤多数数据可能不是存储在⽂本或Excel⽂件中。基于SQL的关系型数据库(如SQL ServerPostgreSQL和MySQL等)使⽤⾮常⼴泛,其它⼀些数据库也很流⾏。数据库的选择通常取决于性能、数据完整性以及应⽤程序的伸缩性需求。将数据从SQL加载到DataFrame的过程很简单,此外pandas还有⼀些能够简化该过程的函数。例如,我将使⽤SQLite数据库(通过Python内置的sqlite3。

2024-05-05 14:25:14 585 2

原创 PYTHON的字典

字典可能是Python最为重要的数据结构。它是键值对的⼤⼩可变集合,键和值都是Python对象。update如果原字典有的键值对出现在融合的字典时则进行覆盖,如果没有则添加。update⽅法是原地改变字典,因此任何传递给update的键的键的值都会被舍弃。关于设定值,常⻅的情况是在字典的值是属于其它集合,如列表。有效的键类型字典的值可以是任意Python对象,⽽键通常是不可变的标量类。keys和values是字典的键和值的迭代器⽅法。因为字典本质上是2元元组的集合,dict可以接受2元元组的列。

2024-04-19 16:20:12 273 1

原创 PYTHON的Web API交互

pd.set_option('display.max_columns', int) int表示你要返回的列数;设置最大显示的列数为None,意味着不限制显示所有列。花费⼀些精⼒,你就可以创建⼀些更⾼级的常⻅的。我们可以直接传递数据到。我们可以直接传递数据到。⽅法会返回⼀个包含被解析过的。中的每个元素都是⼀个包含所有。中的每个元素都是⼀个包含所有。或其他格式提供数据的公共。主题,我们可以发⼀个。许多⽹站都有⼀些通过。对象,⽅便进⾏分析。

2024-04-18 16:31:38 137 1

原创 PYTHON读取和写入Microsoft Excel⽂件

writer._save() #此处要注意的是,使用write.save()可能会报错,得在save前面加下划线,使用write._save()将数据写到创建的文件,并关闭文件,以确保数据已经写入;Project/example/就可以访问ex2.xlsx文件了。如果要读取⼀个⽂件中的多个表单,创建。格式,你必须⾸先创建⼀个。存储在表单中的数据可以。也可以将⽂件名传递到。在指定保存的文件路径。

2024-04-18 11:28:21 233 1

原创 PYTHON列表的操作

list.extend(list1),extend可以单次向列表中添加多个元素,可以理解为完成另外一个列表复制。list.remove(x)表示将列表中的x元素删除,当x元素重复时,删除列表中第一次出现的x元素。list.insert([],x),[]表示列表元素的索引位置,表示将x元素添加到指定的索引位置。list.append(x)将x元素添加到列表list中,默认添加到列表元素末尾。list.pop(list[])表示删除指定的list下标的元素。

2024-04-18 09:26:33 267 1

原创 PYTHON的reversed函数

要记住reversed是⼀个⽣成器(后⾯详细介绍),只有实体化。(即列表或for循环)之后才能创建翻转的序列。reversed函数。

2024-04-18 09:13:40 454 1

原创 python的zip函数

zip的常⻅⽤法之⼀是同时迭代多个序列,可能结合enumerate。给出⼀个“被压缩的”序列,zip可以被⽤来解压序列。zip可以将多个列表、元组或其它序列成对组合成⼀个元组列。作把⾏的列表转换为列的列表。

2024-04-18 08:57:50 428 1

原创 PYTHON的sorted函数

sorted函数可以接受和sort相同的参数。

2024-04-18 08:40:46 92 1

原创 python列表的切片

开始和结束可以用‘:’来表示,也可以省略,[:5]表示切取下标为5之前所有的元素,这里省略了开始位置,默认从0开始,而[5:]表示切取下标大于等于5的所有元素,这里省略了结束下标,默认列表的最后一个元素的下标。切片一般是以[start:stop]形式存在的,其中开始的下标元素是包含在切片里面的,结束stop的下标元素不包含在切片里,这是前闭后开原理。切片还有一个形式:[start:stop:step],step表示步进,每隔几位数提取一个数。切片也可以从列表末尾开始,最末为从-1开始索引。

2024-04-17 19:56:29 233 2

原创 Python的二分搜索和插入bisect模块

【代码】Python的二分搜索和插入bisect模块。

2024-04-17 10:04:28 105 1

原创 使用HDF5格式

HDFStore支持俩种存储模式,‘fixed’和‘table’,后者速度更慢,但支持一种特殊语法的查询操作。统式的节点结构,它使你能够存储多个数据集并⽀持元数据。⾼效地存储重复模式数据。对于那些⾮常⼤的⽆法直接放⼊内存。是⼀种存储⼤规模科学数组数据的⾮常好的⽂件格式。就是不错的选择,因为它可以⾼效地分块读。⽀持多种压缩器的即时压缩,还能更。⽂件中的对象可以通过与字典⼀样的。了更为⾼级的接⼝,可以简化存储。库,带有许多语⾔的接⼝,如。指的是层次型数据格式。⽂件都含有⼀个⽂件系。

2024-04-16 17:32:47 356

原创 二进制格式:pandas的to_pickle

知识点:python内建pickle序列化模块操作是存储数据,to_pickle将数据以pickle格式写入硬盘,read_pickle用于读取硬盘上序列化的数据。pandas对象拥有一个to_pickle方法可以将数据以pickle格式写入硬盘。实现数据的⾼效⼆进制格式存储最简单的办法之⼀是使⽤。仅建议⽤于短期存储格式。虽然我尽⼒保证这种事情不会发⽣在。中,但是今后的某个时候说不定还是得。化的数据,或是使⽤更为⽅便。的对象可能⽆法被后续版本的。对象都有⼀个⽤于将数据以。

2024-04-16 15:54:54 228

原创 数据加载JSON数据

第二个打印语句`print(data.to_json(orient='records'))`将`data`对象转换为JSON格式的字符串,并打印出来。在`to_json`方法中,`orient='records'`参数将DataFrame对象转换为一个包含多个记录的JSON数组,每个记录由一个字典表示,其中键为列标签,值为对应的值。2. 序列化:Python对象可以通过序列化工具将其转换为JSON数据,如json.dumps()方法,而JSON数据本身就是一种序列化的数据格式。

2024-04-15 23:26:49 869

原创 数据加载文件存储格式

dates=pd.date_range('1/1/2000',periods=7)#使用 pandas 的 date_range() 函数生成一个包含从 '2000年1月1日' 开始的连续7天日期的日期索引。ts=pd.Series(np.arange(7),index=dates)#创建一个 pandas Series 对象,其中包含从 0 到 6 的连续整数作为数据,使用上一步生成的日期索引作为索引。使用DataFrame的to_csv方法,可以将数据导出为逗号分隔的文件。

2024-04-15 18:45:22 947 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除