自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 sql基础+考点+题

假如你是腾讯视频会员的产品经理:有一个会员表,命名为 txsp_vip,三个字段,date,qq,status(1为会员,0为非会员),按 date 分区,每个分区全量数据。(select qq from txsp_vip where date>='当月第一天' and date<='当月最后一天' and status=1) a。非排序函数:sum()over(),sum()over()则是累计求和函数,over()中加入partition by则可进行分区累计求和。(注:历史状态统一选取昨天对比)

2023-11-05 11:05:09 256

原创 sql在线练习

SQLBolt - 学习 SQL - SQL 简介。UIUC什么乱七八糟的啊。

2023-10-30 20:01:03 522

原创 乱写的项目

背景:我们公司是为某银行提供自建BI产品,因为银行数据的敏感性,涉及到数据安全的问题,并且公司希望能够对数据资产进行沉淀,挖掘更深层次的价值,为公司后续建设做准备,在费用方面长期下来比用第三方的软件更具性价比,银行业务也涉及到很多个性化的业务,与市场上普遍的需求有一定的差异,自建BI系统能够更好地服务当下的需求,所以我们决定自建BI系统。措施:建立数据规范流程,包括了数据清洗、验证和纠错的步骤、引入数据质量工具,自动对数据进行修复,加强数据源管理,并且溯源错误数据产生的源头,对错误数据产生渠道进行分析。

2023-10-04 15:45:05 193

原创 PRD文档

这可能包括性能、安全性、可伸缩性、可用性、支持等方面的要求,以确保产品的质量和用户体验。请注意,不同的公司和团队可能对PRD的格式和内容有所不同,因此,在实际编写PRD时,最好与你的团队成员和相关利益相关者进行进一步的讨论和确认。同时,与团队中的其他成员进行有效的沟通和反馈是编写高质量PRD的关键。概述:提供一个简要的产品概述,包括产品的目标、受众和核心功能。描述目标用户的特征和需求,包括他们的行为模式、喜好和期望。风险与风险应对措施:识别与产品开发和发布相关的风险,并描述相应的风险管理和风险应对计划。

2023-10-04 15:43:38 201

原创 数据分析--统计学知识

泊松分布:在一定时间范围内发生概率相同,给定其发生的平均发生的次数μ,则事件在该事件范围内发生k次的概率服从泊松分布。聚类:根据数据本身的特性研究分类方法,并遵循这个分类方法对数据进行合理的分类,最终相似数据为一组,同类相同、异类相异。2.离散趋势: 极值(max)、极差(max-min)、平均差、方差、标准差、分位差。2 .R Square: R的平方值是指拟合系数,是自变量解释因变量差距的大小。1.Multiple R:也就是R值,表明自变量与因变量之间相关性大小的值。

2023-08-26 16:33:46 212 1

原创 怎样高效地写一份数据分析报告?

思考建议提出改变结论的变量是哪些?也就是选取最直接呈现区别的度量单位来进行最后的可视化展示,度量单位的选取对画面直观呈现起到很大的左右。首先就是‘’提建议‘’,其次是筛选建议,找到能起改变作用的建议,写报告来让建议更好的落地。也可以找出关联点涉及的问题和相关背景,是否对整体产生影响,影响的严重性,是否需要干涉?从前期的分析中找出涉及到的相关结论,并加以筛选选取最相关的部分。2.支持目标的结论:达到目标,需要知道哪些结论?数据可视化的部分,过滤掉冗余的信息,简洁至上。展现整理后的结论和支撑的数据占大篇幅。

2023-08-10 18:06:35 137

原创 mysql学+练

聚合,也称为聚合统计或者聚合查询,就需要使用select关键字,有select 就得有from xxx。询是纵向查询,它是对某一列的值进行计算,然后返回一个单一的值(另外聚合函数会忽略null空。分组查询指的是使用 GROUP BY 语句,对查询的信息进行分组,相同数据作为一组。子句,可以将查询出的结果进行排序(排序只是显示效果,不会影响真实数据)drop table 表名;char类型是固定长度的: 根据定义的字符串长度分配足够的空间。varchar类型是可变长度的: 只使用字符串长度所需的空间。

2023-05-28 21:36:18 1234

原创 28. Pandas的Categorical数据类型可以降低数据存储提升计算速度

show_counts(默认值:None):是否展示每列的唯一值数量。可以设置为 True, False 或 None。include (默认值:None) 和 exclude(默认值:None):根据表格的列名称进行筛选和过滤。verbose(默认值:True):是否输出细节信息。当设置为False时,只会显示数据帧的行列数。memory_usage(默认值:True):是否展示内存使用情况。null_counts(默认值:True):是否统计缺失值数量。# 使用categorical类型降低存储量。

2023-05-16 23:16:45 241

原创 27. Pandas怎样找出最影响结果的那些特征?

将性别和上船地点文本转换成数字,性别由 female 和 male 转换成 1 和 0 ,地点由S、C、Q字符映射成 1、2 和 3 数字, NaN 设置为0。# 创建 SelectKBest 类的实例,并调用 `fit()` 方法以查找与结果变量最相关的 k 个特征。# 卡方检验,作为SelectKBest的参数,测量特征和结果的关系。#仅保留有用的和感兴趣的列数据,并创建新的 DataFrame。# 选择所有的特征,目的是看到特征重要性排序。# 特征最影响结果的K个特征。# 将特征和结果列拆分。

2023-05-16 23:16:11 418

原创 26. Pandas处理分析网站原始访问日志

add("状态码比例", list(zip(df_status.index.map(str), df_status)))# 添加数据,横坐标为df_status中的索引,纵坐标为df_status中的索引值大小。.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")) # 设置系列配置,显示文字格式为“{b}: {c}”.add("状态码比例", list(zip(df_status.index, df_status)))

2023-05-16 23:14:15 371

原创 24.Pandas怎样结合Pyecharts绘制交互性折线图?

df.head() 函数:Pandas 中 DataFrame 类型对象的方法,用来查看数据集的前几行,默认显示前 5 行。set_global_opts() 方法:Line 模块中的方法之一,用来设置全局图表的样式、标题、工具箱、提示框等属性。options 模块:Pyecharts 中的配置选项模块,用来设置图表的样式、主题、标题、提示框、工具箱等属性。add_yaxis() 方法:Line 模块中的方法之一,用来添加 Y 轴数据和每个数据系列的 name 属性。

2023-05-15 17:42:31 559

原创 25.Pandas结合Sklearn实现泰坦尼克存活率预测

处理步骤: 1、输入数据:使用Pandas读取训练数据(历史数据,特点是已经知道了这个人最后有没有活下来) 2、训练模型:使用Sklearn训练模型 3、使用模型:对于一个新的不知道存活的人,预估他存活的概率。其中,Survived==1代表这个人活下来了、==0代表没活下来;其他的都是这个人的信息和当时的仓位、票务情况。比如预测股票明天是涨还是跌、一套新的二手房成交价大概多少钱、用户打开APP最可能看那些视频等问题。机器学习的核心目标,是使用模型预测未知的事物。# 单独提取是否存活的列,作为预测的目标。

2023-05-15 17:39:12 244

原创 23.Pandas怎样实现Excel的vlookup并且在指定列后面输出?

df_merge=pd.merge(left=df_grade,right=df_sinfo,left_on='学号',right_on='学号')Index(['班级', '学号', '语文成绩', '数学成绩', '英语成绩', '姓名', '性别'], dtype='object')['班级', '学号', '语文成绩', '数学成绩', '英语成绩', '姓名', '性别']['班级', '学号', '姓名', '性别', '语文成绩', '数学成绩', '英语成绩']

2023-05-15 10:28:16 758

原创 22.Pandas怎么处理日期索引的缺失?[¶]

问题:按日期统计的数据,缺失了某天,导致数据不全该怎么补充日期?公众号:蚂蚁学Python可以用两种方法实现:1、DataFrame.reindex,调整dataframe的索引以适应新的索引2、DataFrame.resample,可以对时间序列重采样,支持补充缺失值。

2023-05-14 23:35:08 3962

原创 21.Pandas怎样快捷方便的处理日期数据

Pandas日期处理的作用:将2018-01-01、1/1/2018等多种日期格式映射成统一的格式对象,在该对象上提供强大的功能支持[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wU2CZ4CX-1684078360653)(null)]

2023-05-14 23:33:17 14755

原创 20.Pandas的stack和pivot实现数据透视

20.Pandas的stack和pivot实现数据透视经过统计得到多维度指标数据使用unstack实现数据二维透视使用pivot简化透视stack、unstack、pivot的语法实例:统计得到“电影评分数据集”,每个月份的每个分数被评分多少次:(月份、分数1~5、次数)sep=“::”,df.head()df.head()df.dtypes。

2023-05-14 23:31:03 291

原创 19.Pandas怎样对每个分组应用apply函数?

Pandas怎样对每个分组应用apply函数?知识:Pandas的GroupBy遵从split、apply、combine模式这里的split指的是pandas的groupby,我们自己实现apply函数,apply返回的结果由pandas进行combine得到结果function的第一个参数是dataframefunction的返回结果,可是dataframe、series、单个值,甚至和输入dataframe完全没关系本次实例演示:怎样对数值列按分组的归一化?

2023-05-14 23:28:35 894

原创 Pandas

本代码演示:pandas读取纯文本文件读取csv文件读取txt文件pandas读取xlsx格式excel文件pandas读取mysql数据表In [1]:import pandas as pd1、读取纯文本文件import pandas as pdfpath = "./ratings.csv"ratings = pd.read_csv(fpath)print(ratings.head())print(ratings.shape)print(ratings.colum

2023-05-04 23:55:46 243

原创 andas

numpy能够帮我们处理处理数值型数据,但是这还不够,很多时候,我们的数据除了数值之外,还有字符串,还有时间序列等pandas的常用数据类型Pandas 是一种开源数据分析工具,它提供了高性能、易于使用的数据结构和数据分析工具,用于处理各种类型的数据Pandas 最主要的数据结构是 Series 和 DataFrame,Series 是一维标记数组,而 DataFrame 是二维表格数据结构,类似于关系型数据库中的表。

2023-04-28 23:46:25 75

原创 numpy

一个在Python中做科学计算的基础库,重在数值计算,也是大部分PYTHON科学计算库的基础库,多用于在大型、多维数组上执行数值运算正在上传…重新上传取消。

2023-04-27 00:01:03 43

原创 面向对象pythonday8

在python中展现面向对象的三大特征: 封装、继承、多态 封装:指的是把内容封装到某个地方,便于后面的使用 他需要: 把内容封装到某个地方 从另外一个地方去调用被封装的内容 对于封装来说 其实就是使用初始化构造方法将内容封装到对象中,然后通过对象直接或者self来获取被封装的内容。

2023-04-14 00:17:06 72 1

原创 pythonday07

类和对象的概念类就是一个模板,模板里可以包含多个函数,函数里实现一些功能;对象则是根据模板创建的实例,通过实例对象可以执行类中的函数。定义类和对象使用class语句来创建一个新类,class 之后为类的名称并以冒号结尾;实例化类其他编程语言中一般用关键字new,但是在Python中并没有 这个关键字,类的实例化类似函数调用方式。实例方法与属性在类的内部,使用def关键字可以定义一个实例方法;定义在类里面,方法外面的属性称之为类属性,定义在方法里面使用self 引用的属性称之为实例属性。init方法。

2023-04-12 23:06:16 55

原创 python基础day5

dictInfo={'编号':bookItem[0],'书名':bookItem[1],'位置':bookItem[2]}print('动态执行结果:{}'.format(eval('a+b+c*b-20')))print(bytes('w 我喜欢',encoding='utf-8'))dic=dict(name='xiaom',age=18)#创建字典。eval('TestFun()')#可以调用函数执行。print(set1.union(set2))#并。print(abs(-34))#取绝对值。

2023-04-11 23:25:06 37

原创 mysql笔迹海牛

主要由create(创建库、表)、alter(修改结构)、drop(删除库、表) 和 truncate(摧毁重建) 四个关键字完成。

2023-04-01 00:40:19 1355

原创 【无标题】

爬取豆瓣top250

2022-12-03 23:34:46 87

原创 大数据面试项目介绍方式

面试啊

2022-11-20 15:13:58 333

原创 hivesql的一些知识

hive 模糊搜索表。

2022-10-30 16:33:28 636

原创 sql练习题总结

null 不是值 所以就要写 is null而不是=null在。。。之间 between and含有某某要用 like ‘% %’ 不含有用 not like ‘% %’含有多个元素 且按照这个顺序 like ‘%toy%carrots%’运算在select 后直接对字段进行计算字符串的截取:substring(字符串,起始位置,截取字符数)字符串的拼接:concat(字符串1,字符串2,字符串3,…)字母大写:upper(字符串)

2022-10-23 10:42:48 98

原创 面试题22

1.解析器把HiveSQL解析为抽象语法树。orderby: 数据处理中出现数据清洗。4.执行器把逻辑执行计划生成物理执行计划。distribute by: 控制分区。3.优化器逻辑执行计划进行逻辑层优化。2.编译器把抽象语法树生成逻辑计划。维度基于业务 数据不符合三范式。driver进程是在客户端。row_nuber无排序。合并机制的shuffle。dense_rank有。cluster 模式。am就是driver。都是Action算子。...

2022-08-31 11:39:31 52

原创 虚拟机搬家改ip地址

代码】虚拟机搬家改ip地址。

2022-08-10 16:18:00 148

原创 栈、队列、数组、链表

数据结构数据的组织方式。

2022-07-30 10:41:09 66

原创 数仓分层总结

ods层上是一些原始的数据,存放原始数据,直接加载原始日志、数据(事件表),保持数据原貌不作处理,也就是做一个备份的作用,不要解析数据。Dws层是根据dwd层轻度聚合来的数据,主要是一些宽表(维度宽表),主要字段(用户ID、下单次数、下单金额、支付次数)注意每日留存,一周留存。2.用户新增每日新增(每日活跃设备leftjoin每日新增表,如果join后,每日新增表的设备id为空,就是新增)结构和粒度与原始表保持一致,对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据出现负值的一些情况)...

2022-07-29 11:02:17 546

原创 sql 五十题

insertintostudent(sid,sName,sAge,sSex)values(‘1005’,‘李世明’,to_date(‘1981-10-12231236’,‘YYYY-MM-DDHH24MISS’),‘男’);insertintocourse(cid,cName,tid)values(‘001’,‘企业管理’,3),(‘002’,‘马克思’,3),(‘003’,‘UML’,2),(‘004’,‘数据库’,1),(‘005’,‘英语’,1);...

2022-07-19 22:11:29 2299

原创 Flume

是一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统,能够有效的收集、聚合、移动大量的日志数据。人话:很靠谱,很方便、很强的日志采集工具。第一个就是webServer表示一个web项目,他产生日志数据,到Agent把日志数据采集到HDFS中Agent就是flume启动的代理,一个持续传输数据的服务,数据在Agent内部之间传输基本单位就是Eventflume三大核心组件:Source 、channel、sinkSource是数据源,负责读取数据channel是临时存储数据的管道,sourc

2022-07-02 10:44:22 191

原创 hadoop之核心

初识NameNodeHDFS体系结构1.HDFS 支 持 主 从 结 构 , 主 节 点 称 为 NameNode , 是 因 为 主 节 点 上 运 行 的 有 NameNode 进 程 ,NameNode支持多个,目前我们的集群中只配置了一个2.从节点称为 DataNode ,是因为从节点上面运行DataNode进程,DataNode支持多个,目前我们的集群中有两个3.HDFS中还包含一个 SecondaryNameNode 进程,但是这并不是第二个NameNode的意思公司BOSS:NameN

2022-06-28 10:39:44 152

原创 初识hadoop

分布式存储,可以简单理解为存储数据的时候,数据不只存在一台机器上面,它会存在多台机器上面分布式计算简单理解,就是由很多台机器并行处理数据hadoop1.x:HDFS+MapReducehadoop2.x:HDFS+YARN+MapReducehadoop3.x:HDFS+YARN+MapReduce从Hadoop1.x升级到Hadoop2.x,架构发生了比较大的变化,这里面的HDFS是分布式存储,MapRecue是分布式计算,咱们前面说了Hadoop解决了分布式存储和分布式计算的问题,对应的就是这

2022-06-27 16:52:40 242

原创 关于Hadoop的datanode起不了这件小事

我遇到的问题就是一开始的时候其实是namenode起不来,但是datanode可以,其他从节点也可以,当我寻找了一些关于namenode起不来的帖子解决了我的问题后,我再次启动了我的集群,发现只有Hadoop102有datanode,其他从节点都没有了,我急了,按照网上的说法是CID不一致,那么就按照那个方法进行了修改可以看这个,我改的时候虽然这个数字超级多,但是我还是觉得非常的相似就是一样的嘛,果真我改完以后还是起不来,老师让我重装,我理解的是重装hadoop,睡了一觉起来重装了以后,fuck还是不行

2022-06-27 11:04:28 258

原创 java--常用API02

相邻元素两两比较,大的往后放,第一次,比较完毕后,最大值就出现在了最大索引处。第二次比较,比较完毕后,次大值就出现在了次大索引处,。。。最终得到排序好的。Arrays工具类Arrays:提供了对数组操作的各种方法。public static String toString(int[] a):把数组转成字符串public static void sort(int[] a):对数组进行升序排序Arrays类中真的没有构造方法吗?一个类中没有构造方法,系统将提供一个无参构造方法。而我们在帮

2022-06-15 18:04:11 42

原创 java--常用API

应用程序的接口帮助文档Scanner:用于获取键盘录入数据。(基本数据类型,字符串数据)public String nextLine():获取键盘录入字符串数据Object类的toString()方法Object:是类层次结构的根类,所有的类都直接的或者间接的继承自该类。构造方法:Object();直接输出对象名,输出底层调用的是该对象的toString();查看API,我们发现建议所有子类都重写toString()到底该如何重写方法呢?自动生成就可以。ObjectObject:是类层次结

2022-06-14 16:31:17 69

原创 java面向对象3

final:是一个关键字,表示最终的意思。可以用来修饰类修饰类:表明该类是最终类,不能被继承修饰变量:表明该变量是常量,不能再次被赋值修饰方法:表明该方法是最终方法,不能被重写static:是一个关键字,静态的意思。可以用来修饰成员变量和成员方法。static修饰成员的特点:A:被类的所有对象共享。同样也是判断这个对象是否应该用static修饰的条件。B:可以通过类名直接访问C:优先于对象存在D: 随着类的加载而加载静态的成员方法:表格展示分别能访问的

2022-06-09 17:44:45 92

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除