月升11-CSDN博客

原创 sql基础+考点+题

假如你是腾讯视频会员的产品经理：有一个会员表，命名为 txsp_vip，三个字段，date,qq,status(1为会员，0为非会员)，按 date 分区，每个分区全量数据。(select qq from txsp_vip where date>='当月第一天' and date<='当月最后一天' and status=1) a。非排序函数：sum()over()，sum()over()则是累计求和函数，over()中加入partition by则可进行分区累计求和。(注:历史状态统一选取昨天对比)

2023-11-05 11:05:09 256

原创 sql在线练习

SQLBolt - 学习 SQL - SQL 简介。UIUC什么乱七八糟的啊。

2023-10-30 20:01:03 522

原创乱写的项目

背景：我们公司是为某银行提供自建BI产品，因为银行数据的敏感性，涉及到数据安全的问题，并且公司希望能够对数据资产进行沉淀，挖掘更深层次的价值，为公司后续建设做准备，在费用方面长期下来比用第三方的软件更具性价比，银行业务也涉及到很多个性化的业务，与市场上普遍的需求有一定的差异，自建BI系统能够更好地服务当下的需求，所以我们决定自建BI系统。措施：建立数据规范流程，包括了数据清洗、验证和纠错的步骤、引入数据质量工具，自动对数据进行修复，加强数据源管理，并且溯源错误数据产生的源头，对错误数据产生渠道进行分析。

2023-10-04 15:45:05 193

原创 PRD文档

这可能包括性能、安全性、可伸缩性、可用性、支持等方面的要求，以确保产品的质量和用户体验。请注意，不同的公司和团队可能对PRD的格式和内容有所不同，因此，在实际编写PRD时，最好与你的团队成员和相关利益相关者进行进一步的讨论和确认。同时，与团队中的其他成员进行有效的沟通和反馈是编写高质量PRD的关键。概述：提供一个简要的产品概述，包括产品的目标、受众和核心功能。描述目标用户的特征和需求，包括他们的行为模式、喜好和期望。风险与风险应对措施：识别与产品开发和发布相关的风险，并描述相应的风险管理和风险应对计划。

2023-10-04 15:43:38 201

原创数据分析--统计学知识

泊松分布：在一定时间范围内发生概率相同，给定其发生的平均发生的次数μ，则事件在该事件范围内发生k次的概率服从泊松分布。聚类：根据数据本身的特性研究分类方法，并遵循这个分类方法对数据进行合理的分类，最终相似数据为一组，同类相同、异类相异。2.离散趋势：极值（max）、极差（max-min）、平均差、方差、标准差、分位差。2 .R Square: R的平方值是指拟合系数，是自变量解释因变量差距的大小。1.Multiple R:也就是R值，表明自变量与因变量之间相关性大小的值。

2023-08-26 16:33:46 212 1

原创怎样高效地写一份数据分析报告？

思考建议提出改变结论的变量是哪些？也就是选取最直接呈现区别的度量单位来进行最后的可视化展示，度量单位的选取对画面直观呈现起到很大的左右。首先就是‘’提建议‘’，其次是筛选建议，找到能起改变作用的建议，写报告来让建议更好的落地。也可以找出关联点涉及的问题和相关背景，是否对整体产生影响，影响的严重性，是否需要干涉？从前期的分析中找出涉及到的相关结论，并加以筛选选取最相关的部分。2.支持目标的结论：达到目标，需要知道哪些结论？数据可视化的部分，过滤掉冗余的信息，简洁至上。展现整理后的结论和支撑的数据占大篇幅。

2023-08-10 18:06:35 137

原创 mysql学+练

聚合，也称为聚合统计或者聚合查询，就需要使用select关键字，有select 就得有from xxx。询是纵向查询，它是对某一列的值进行计算，然后返回一个单一的值(另外聚合函数会忽略null空。分组查询指的是使用 GROUP BY 语句,对查询的信息进行分组,相同数据作为一组。子句,可以将查询出的结果进行排序(排序只是显示效果,不会影响真实数据)drop table 表名；char类型是固定长度的：根据定义的字符串长度分配足够的空间。varchar类型是可变长度的：只使用字符串长度所需的空间。

2023-05-28 21:36:18 1234

原创 28. Pandas的Categorical数据类型可以降低数据存储提升计算速度

show_counts(默认值：None)：是否展示每列的唯一值数量。可以设置为 True, False 或 None。include (默认值：None) 和 exclude（默认值：None）：根据表格的列名称进行筛选和过滤。verbose(默认值：True)：是否输出细节信息。当设置为False时，只会显示数据帧的行列数。memory_usage(默认值：True)：是否展示内存使用情况。null_counts(默认值：True)：是否统计缺失值数量。# 使用categorical类型降低存储量。

2023-05-16 23:16:45 241

原创 27. Pandas怎样找出最影响结果的那些特征？

将性别和上船地点文本转换成数字,性别由 female 和 male 转换成 1 和 0 ，地点由S、C、Q字符映射成 1、2 和 3 数字， NaN 设置为0。# 创建 SelectKBest 类的实例，并调用 `fit()` 方法以查找与结果变量最相关的 k 个特征。# 卡方检验，作为SelectKBest的参数,测量特征和结果的关系。#仅保留有用的和感兴趣的列数据，并创建新的 DataFrame。# 选择所有的特征，目的是看到特征重要性排序。# 特征最影响结果的K个特征。# 将特征和结果列拆分。

2023-05-16 23:16:11 418

原创 26. Pandas处理分析网站原始访问日志

add("状态码比例", list(zip(df_status.index.map(str), df_status)))# 添加数据，横坐标为df_status中的索引，纵坐标为df_status中的索引值大小。.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")) # 设置系列配置，显示文字格式为“{b}: {c}”.add("状态码比例", list(zip(df_status.index, df_status)))

2023-05-16 23:14:15 371

原创 24.Pandas怎样结合Pyecharts绘制交互性折线图？

df.head() 函数：Pandas 中 DataFrame 类型对象的方法，用来查看数据集的前几行，默认显示前 5 行。set_global_opts() 方法：Line 模块中的方法之一，用来设置全局图表的样式、标题、工具箱、提示框等属性。options 模块：Pyecharts 中的配置选项模块，用来设置图表的样式、主题、标题、提示框、工具箱等属性。add_yaxis() 方法：Line 模块中的方法之一，用来添加 Y 轴数据和每个数据系列的 name 属性。

2023-05-15 17:42:31 559

原创 25.Pandas结合Sklearn实现泰坦尼克存活率预测

处理步骤： 1、输入数据：使用Pandas读取训练数据(历史数据，特点是已经知道了这个人最后有没有活下来) 2、训练模型：使用Sklearn训练模型 3、使用模型：对于一个新的不知道存活的人，预估他存活的概率。其中，Survived==1代表这个人活下来了、==0代表没活下来；其他的都是这个人的信息和当时的仓位、票务情况。比如预测股票明天是涨还是跌、一套新的二手房成交价大概多少钱、用户打开APP最可能看那些视频等问题。机器学习的核心目标，是使用模型预测未知的事物。# 单独提取是否存活的列，作为预测的目标。

2023-05-15 17:39:12 244

原创 23.Pandas怎样实现Excel的vlookup并且在指定列后面输出？

df_merge=pd.merge(left=df_grade,right=df_sinfo,left_on='学号',right_on='学号')Index(['班级', '学号', '语文成绩', '数学成绩', '英语成绩', '姓名', '性别'], dtype='object')['班级', '学号', '语文成绩', '数学成绩', '英语成绩', '姓名', '性别']['班级', '学号', '姓名', '性别', '语文成绩', '数学成绩', '英语成绩']

2023-05-15 10:28:16 758

原创 22.Pandas怎么处理日期索引的缺失？[¶]

问题：按日期统计的数据，缺失了某天，导致数据不全该怎么补充日期？公众号：蚂蚁学Python可以用两种方法实现：1、DataFrame.reindex，调整dataframe的索引以适应新的索引2、DataFrame.resample，可以对时间序列重采样，支持补充缺失值。

2023-05-14 23:35:08 3962

原创 21.Pandas怎样快捷方便的处理日期数据

Pandas日期处理的作用：将2018-01-01、1/1/2018等多种日期格式映射成统一的格式对象，在该对象上提供强大的功能支持[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wU2CZ4CX-1684078360653)(null)]

2023-05-14 23:33:17 14755

原创 20.Pandas的stack和pivot实现数据透视

20.Pandas的stack和pivot实现数据透视经过统计得到多维度指标数据使用unstack实现数据二维透视使用pivot简化透视stack、unstack、pivot的语法实例：统计得到“电影评分数据集”，每个月份的每个分数被评分多少次：（月份、分数1~5、次数）sep=“::”,df.head()df.head()df.dtypes。

2023-05-14 23:31:03 291

原创 19.Pandas怎样对每个分组应用apply函数?

Pandas怎样对每个分组应用apply函数?知识：Pandas的GroupBy遵从split、apply、combine模式这里的split指的是pandas的groupby，我们自己实现apply函数，apply返回的结果由pandas进行combine得到结果function的第一个参数是dataframefunction的返回结果，可是dataframe、series、单个值，甚至和输入dataframe完全没关系本次实例演示：怎样对数值列按分组的归一化？

2023-05-14 23:28:35 894

原创 Pandas

本代码演示：pandas读取纯文本文件读取csv文件读取txt文件pandas读取xlsx格式excel文件pandas读取mysql数据表In [1]:import pandas as pd1、读取纯文本文件import pandas as pdfpath = "./ratings.csv"ratings = pd.read_csv(fpath)print(ratings.head())print(ratings.shape)print(ratings.colum

2023-05-04 23:55:46 243

原创 andas

numpy能够帮我们处理处理数值型数据，但是这还不够，很多时候，我们的数据除了数值之外，还有字符串，还有时间序列等pandas的常用数据类型Pandas 是一种开源数据分析工具，它提供了高性能、易于使用的数据结构和数据分析工具，用于处理各种类型的数据Pandas 最主要的数据结构是 Series 和 DataFrame，Series 是一维标记数组，而 DataFrame 是二维表格数据结构，类似于关系型数据库中的表。

2023-04-28 23:46:25 75

原创 numpy

一个在Python中做科学计算的基础库，重在数值计算，也是大部分PYTHON科学计算库的基础库，多用于在大型、多维数组上执行数值运算正在上传…重新上传取消。

2023-04-27 00:01:03 43

原创面向对象pythonday8

在python中展现面向对象的三大特征: 封装、继承、多态封装:指的是把内容封装到某个地方，便于后面的使用他需要: 把内容封装到某个地方从另外一个地方去调用被封装的内容对于封装来说其实就是使用初始化构造方法将内容封装到对象中，然后通过对象直接或者self来获取被封装的内容。

2023-04-14 00:17:06 72 1

原创 pythonday07

类和对象的概念类就是一个模板，模板里可以包含多个函数，函数里实现一些功能;对象则是根据模板创建的实例，通过实例对象可以执行类中的函数。定义类和对象使用class语句来创建一个新类，class 之后为类的名称并以冒号结尾;实例化类其他编程语言中一般用关键字new,但是在Python中并没有这个关键字，类的实例化类似函数调用方式。实例方法与属性在类的内部，使用def关键字可以定义一个实例方法;定义在类里面，方法外面的属性称之为类属性，定义在方法里面使用self 引用的属性称之为实例属性。init方法。

2023-04-12 23:06:16 55

原创 python基础day5

dictInfo={'编号':bookItem[0],'书名':bookItem[1],'位置':bookItem[2]}print('动态执行结果:{}'.format(eval('a+b+c*b-20')))print(bytes('w 我喜欢',encoding='utf-8'))dic=dict(name='xiaom',age=18)#创建字典。eval('TestFun()')#可以调用函数执行。print(set1.union(set2))#并。print(abs(-34))#取绝对值。

2023-04-11 23:25:06 37

原创 mysql笔迹海牛

主要由create（创建库、表）、alter（修改结构）、drop（删除库、表）和 truncate（摧毁重建）四个关键字完成。

2023-04-01 00:40:19 1355

原创【无标题】

爬取豆瓣top250

2022-12-03 23:34:46 87

原创大数据面试项目介绍方式

面试啊

2022-11-20 15:13:58 333

原创 hivesql的一些知识

hive 模糊搜索表。

2022-10-30 16:33:28 636

原创 sql练习题总结

null 不是值所以就要写 is null而不是=null在。。。之间 between and含有某某要用 like ‘% %’ 不含有用 not like ‘% %’含有多个元素且按照这个顺序 like ‘%toy%carrots%’运算在select 后直接对字段进行计算字符串的截取：substring(字符串，起始位置，截取字符数）字符串的拼接：concat(字符串1，字符串2，字符串3,…)字母大写：upper(字符串）

2022-10-23 10:42:48 98

原创面试题22

1.解析器把HiveSQL解析为抽象语法树。orderby：数据处理中出现数据清洗。4.执行器把逻辑执行计划生成物理执行计划。distribute by: 控制分区。3.优化器逻辑执行计划进行逻辑层优化。2.编译器把抽象语法树生成逻辑计划。维度基于业务数据不符合三范式。driver进程是在客户端。row_nuber无排序。合并机制的shuffle。dense_rank有。cluster 模式。am就是driver。都是Action算子。...

2022-08-31 11:39:31 52

原创虚拟机搬家改ip地址

代码】虚拟机搬家改ip地址。

2022-08-10 16:18:00 148

原创栈、队列、数组、链表

数据结构数据的组织方式。

2022-07-30 10:41:09 66

原创数仓分层总结

ods层上是一些原始的数据，存放原始数据，直接加载原始日志、数据（事件表），保持数据原貌不作处理，也就是做一个备份的作用，不要解析数据。Dws层是根据dwd层轻度聚合来的数据，主要是一些宽表（维度宽表），主要字段（用户ID、下单次数、下单金额、支付次数）注意每日留存，一周留存。2.用户新增每日新增（每日活跃设备leftjoin每日新增表，如果join后，每日新增表的设备id为空，就是新增）结构和粒度与原始表保持一致，对ODS层数据进行清洗（去除空值，脏数据，超过极限范围的数据出现负值的一些情况）...

2022-07-29 11:02:17 546

原创 sql 五十题

insertintostudent(sid,sName,sAge,sSex)values(‘1005’,‘李世明’,to_date(‘1981-10-12231236’,‘YYYY-MM-DDHH24MISS’),‘男’);insertintocourse(cid,cName,tid)values(‘001’,‘企业管理’,3),(‘002’,‘马克思’,3),(‘003’,‘UML’,2),(‘004’,‘数据库’,1),(‘005’,‘英语’,1);...

2022-07-19 22:11:29 2299

原创 Flume

是一个高可用，高可靠，分布式的海量日志采集、聚合和传输的系统，能够有效的收集、聚合、移动大量的日志数据。人话：很靠谱，很方便、很强的日志采集工具。第一个就是webServer表示一个web项目，他产生日志数据，到Agent把日志数据采集到HDFS中Agent就是flume启动的代理，一个持续传输数据的服务，数据在Agent内部之间传输基本单位就是Eventflume三大核心组件：Source 、channel、sinkSource是数据源，负责读取数据channel是临时存储数据的管道，sourc

2022-07-02 10:44:22 191

原创 hadoop之核心

初识NameNodeHDFS体系结构1.HDFS 支持主从结构，主节点称为 NameNode ，是因为主节点上运行的有 NameNode 进程，NameNode支持多个，目前我们的集群中只配置了一个2.从节点称为 DataNode ，是因为从节点上面运行DataNode进程，DataNode支持多个，目前我们的集群中有两个3.HDFS中还包含一个 SecondaryNameNode 进程，但是这并不是第二个NameNode的意思公司BOSS：NameN

2022-06-28 10:39:44 152

原创初识hadoop

分布式存储，可以简单理解为存储数据的时候，数据不只存在一台机器上面，它会存在多台机器上面分布式计算简单理解，就是由很多台机器并行处理数据hadoop1.x：HDFS+MapReducehadoop2.x：HDFS+YARN+MapReducehadoop3.x：HDFS+YARN+MapReduce从Hadoop1.x升级到Hadoop2.x，架构发生了比较大的变化，这里面的HDFS是分布式存储，MapRecue是分布式计算，咱们前面说了Hadoop解决了分布式存储和分布式计算的问题，对应的就是这

2022-06-27 16:52:40 242

原创关于Hadoop的datanode起不了这件小事

我遇到的问题就是一开始的时候其实是namenode起不来，但是datanode可以，其他从节点也可以，当我寻找了一些关于namenode起不来的帖子解决了我的问题后，我再次启动了我的集群，发现只有Hadoop102有datanode，其他从节点都没有了，我急了，按照网上的说法是CID不一致，那么就按照那个方法进行了修改可以看这个，我改的时候虽然这个数字超级多，但是我还是觉得非常的相似就是一样的嘛，果真我改完以后还是起不来，老师让我重装，我理解的是重装hadoop，睡了一觉起来重装了以后，fuck还是不行

2022-06-27 11:04:28 258

空空如也

空空如也