- 博客(82)
- 收藏
- 关注
原创 产品经理-竞品分析
收集好资料之后利用多种思维模型进行竞品的分析。比较法:竞品和自身有哪些优劣势竞品跟踪矩阵:跟踪竞品的发展规律,推测下一步发展计划功能拆解:把整个系统拆解成多级的功能清单需求洞察:探索功能背后的真实需求和本质需求PEST分析:从优势劣势、竞争机会等维度进行分析。
2025-01-06 22:38:01
326
原创 统计学第6天之一元线性回归
判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款的取值的变动中,有71.16%是由贷款余额所决定的。当ρ远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。其中y是x的线性部分加上误差项,线性部分反映x的变化而引起y的变化,误差项反映的是除了线性关系之外的因素对y的影响,不能由x和y之间的线性关系揭示的变异性,对于所有的值,残差是不同的,例如对于较大的X值,相应的残差也较大,如图(b)所示,这就意味着违背了残差方差相等的假设。
2024-09-08 10:48:00
1259
原创 LaTeX各符号表示方式(持续更新~)
- "\mu":穆 miu - "\sigma":西格玛xigema - "\lambda":兰姆达或拉姆达lamuda - "\alpha":阿尔法aerfa - "\beta":贝塔beita - "\gamma":伽马 gama - "\pi":派 - "\theta":西塔或者泰塔xita - " \epsilon" -"\chi":希腊字母,读卡或者希 -"\rho":希腊字母,肉 :下标: \mu_{1} :上标: X^{2} :累加: \sum
2024-09-04 22:07:10
1474
原创 皮尔逊相关系数
皮尔逊相关系数定义为两个变量X、Y协方差和标准差的比值。标准差在皮尔逊相关系数计算公式中扮演的角色是去除量纲。反应两个变量之间的相关程度。协方差反映两个变量相关程度。协方差绝对值小于等于标准差。
2024-09-04 18:49:50
222
原创 统计学第5天之卡方检验
1、用于检验列联表中变量之间拟合优度和独立性2、检验统计量为:【fo实际频数,fe期望频数】或者表示列联表中第i行第j列类别中的实际频数,表示列联表中第i行第j列类别中的期望频数。3、统计量可以看作是检验统计量与真实值与期望值的近似程度。两者越接近,即的绝对值越小,计算出的值就越小;反之,的绝对值越大,计算出的值就越大。
2024-09-02 16:52:10
1152
原创 统计学第4天之方差分析(ANOVA)
1、检验多个总体均值是否相等,通过分析数据的误差判断各总体均值是否相等。2、研究分类型自变量对数值型因变量的影响。3、单因素方差分析:涉及一个分类的自变量。例1、某咨询公司为了研究不同类目的电商公司的服务质量,在服装类目抽取了7家公司,电子产品类目抽取了6家公司,医药类目抽取了5家公司,彩妆类目抽取了5家公司作为样本进行研究。假定他们在服务对象、服务内容、企业规模等方面基本是相同的。
2024-09-02 16:51:31
1305
原创 Pandas第1天之数据结构
Pandas 是 Python 数据分析的核心库之一,它提供了两种主要的数据结构:Series 和 DataFrame。这两种结构为数据分析、数据清洗以及数据预处理提供了极大的便利。
2024-08-16 08:18:24
234
原创 统计学第3天之单侧检验与双侧检验
如果给出了P值就不用再过多的关注α了,显著性水平由你自己定,你觉得多大显著就显著,通常P≯0.1,因此α通常取0.1、0.01、0.05,如果P值落在不同地方显著性水平不同,落在临界值附近,和落在临界值很远的地方(需要思考了为什么差别会折磨大)如果P值很小,说明此种情况发生的概率很小,如果出现了,根据小概率时间原理,有理由拒绝原假设,P值越小,拒绝原假设的理由越充分。因为P值很小的情况下,取出来的异常值的概率就越小,因此P值越小的情况下,此时取出了异常值,这是P值越小拒绝原假设H0的理由就越充分。
2024-08-14 08:23:02
1586
原创 机器学习第1天线性回归
标准正态分布是正态分布的一个标准化形式,通常用于简化问题的求解过程,在统计分析中具有重要应用。高斯分布在自然科学和社会科学中十分常见,因为许多随机变量的分布都近似是正态分布,特别是当独立随机变量的总和趋于无限时,根据中心极限定理,其分布接近正态分布。均值决定了分布的中心位置,标准差决定了分布的离散程度,即数据集中或分散的程度。正态分布是一类连续概率分布,其形状呈现为对称的钟形曲线,这种曲线被称为高斯函数或高斯钟形曲线。总结来说,所有的标准正态分布都是正态分布,但不是所有的正态分布都是标准正态分布。
2024-05-17 18:03:20
419
原创 统计学第2天之参数估计与假设检验
1、对总体参数的数值所作的一种陈述。总体参数包括总体均值、比例、方差等分析之前必须陈述2、事先对总体参数或分布形式做出某种假设,然后利用样本信息来判断原假设是否成立3、有参数假设检验和非参数假设检验4、采用逻辑上的反证法,依据统计上的小概率原理。
2024-05-16 09:11:34
819
原创 hive小技巧
判断两个数是否相等如果相等返回null值,如果不相等返回第一个值。和coalesce效果一样只不过val不是标准得函数。从一系列数中获取第一个不为null值得数。和上边的coalesce效果一样。
2024-05-16 08:16:52
273
原创 Git与Gitlab
文章对git做了一个大概的介绍,然后介绍github,gitee,gitlab代码托管平台,介绍gitlab安装部署,介绍gitlab与本地idea代码互通。
2024-05-15 08:53:17
1461
原创 HiveSQL之lateral view
lateral view是hiveQL中的一个高级功能,用于和表生成函数一起,来处理嵌套数组和结构的数据,特别是在处理复杂的数据结构如JSON或数组内嵌套数组时特别有用。它允许用户在每一行上应用TGF(表生成函数),将生成的元素作为多行返回,或者多列返回。
2024-04-08 22:17:28
713
原创 数据透视表之占比、对比与组合显示
右键----值显示方式----百分比-----选择安徽省作为基准(数据百分比都是通过和安徽除安徽得到)市的父级是省,父行百分比就是一个省是一个单位,里面每个市占比多少。右键----值显示方式----按照月份。一列、一行或者整个表作为单位1。右键--折叠--折叠整个字段。
2024-03-20 07:40:04
2066
原创 MySQL之窗口函数
窗口函数:窗口、函数(应用在窗口内的函数)窗口类似窗户、限定一个空间。那什么叫窗口呢?窗口的概念非常重要,可以理解为记录集合,窗口函数也就是在满足某种条件的记录集合上执行的特殊函数。对于每条记录都要在此窗口内执行,窗口的大小是固定的,这种属于静态窗口;不同的记录对应着不同的窗口,这种动态变化的窗口叫做滑动窗口。窗口函数的基本用法如下:函数名(开窗字段) over(子句);
2024-03-19 22:00:41
4577
1
原创 Excel之数据透视表
(1)选择要创建数据透视表的数据------插入----选择数据透视表(2)选择现有工作表然后点击目标表选择合适的位置插入。
2024-03-18 22:14:04
1349
原创 DolphinScheduler安装与配置
Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。DolphinScheduler的主要角色如下:采用分布式无中心设计理念,MasterServer主要负责 DAG 任务切分、任务提交、任务监控,并同时监听其它MasterServer和WorkerServer的健康状态。也采用分布式无中心设计理念,WorkerServer主要负责任务的执行和提供日志服务。
2024-02-14 21:36:48
2388
原创 Hive on Spark配置
说明2:Hive任务最终由Spark来执行,Spark任务资源分配由Yarn来调度,该任务有可能被分配到集群的任何一个节点。所以需要将Spark的依赖上传到HDFS集群路径,这样集群中任何一个节点都能获取到。说明1:采用Spark纯净版jar包,不包含hadoop和hive相关依赖,能避免依赖冲突。1、解压spark-3.3.1-bin-without-hadoop.tgz。2、修改spark-env.sh配置文件。--Spark依赖位置(注意:端口号。--Hive执行引擎-->source 使其生效。
2024-02-14 21:21:11
1877
1
原创 Hive安装部署
4、解决日志Jar包(改成备用)冲突,进入/opt/moudle/hive/lib目录。--配置Hive保存元数据信息所需的 MySQL URL地址-->1、解压hive-3.1.3.tar.gz到/opt/module/目录下面。在$HIVE_HOME/conf目录下新建hive-site.xml。2、修改hive-3.1.3-bin.tar.gz的名称为hive。--配置Hive连接MySQL的驱动全类名-->--配置Hive连接MySQL的用户名 -->--配置Hive连接MySQL的密码 -->
2024-02-10 10:08:52
1158
原创 Kafka集群安装与部署
(2)依次在hadoop102、hadoop103、hadoop104节点上启动Kafka。(1)依次在hadoop102、hadoop103、hadoop104节点上停止Kafka。(1)在/etc/profile.d/my_env.sh文件中增加kafka环境变量配置。(1)先启动Zookeeper集群,然后启动Kafka。(3)分发环境变量文件到其他节点,并source。集群就没有办法再获取停止进程的信息,只能手动杀死。(2)刷新一下环境变量。(每个节点单独配置)(每个节点单独配置)
2024-02-10 10:06:53
1508
原创 Flume安装部署
(1)将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下。(2)解压apache-flume-1.10.1-bin.tar.gz到/opt/moudle/目录下。(3)修改apache-flume-1.10.1-bin的名称为flume。(4)修改conf目录下的log4j2.xml配置文件,配置日志文件路径。(5)分发flume(当前位置/opt/moudle/)# 引入控制台输出,方便学习查看日志。
2024-02-09 09:25:11
1407
原创 Linux上MySQL安装部署
(4)执行/opt/software/mysql/目录下install_mysql.sh。(1)卸载MySQL依赖,虽然机器上没有装MySQL,但是这一步。输入mysql -uroot -p123456。(3)切换到hadoop102的root用户。#更改密码级别并重启MySQL。将安装包上传到mysql目录。我一直是用root用户操作的。# 安装并启动MySQL。# 更改MySQL配置。(2)下载依赖并安装。
2024-02-09 09:23:41
611
原创 Zookeeper集群搭建(3台)
1、重命名/opt/module/zookeeper/conf目录下的zoo_sample.cfg为zoo.cfg。3、同步/opt/module/zookeeper目录内容到hadoop103、hadoop104。2、在/opt/module/zookeeper/zkData目录下创建一个myid的文件。1、在/opt/module/zookeeper/目录下创建zkData。1、解压Zookeeper安装包到/opt/module/目录下。切换到/opt/module目录下。
2024-02-08 08:32:35
1317
原创 Hadoop集群所有进程查看脚本
1、在/home/atguigu/bin目录下创建脚本xcall.sh。相当于在三台节点同时运行jps。2、赋予文件运行权限。
2024-02-08 08:30:19
319
原创 CentOS7搭建Hadoop集群
10、部署完成可以通过start-all.sh和stop-all.sh控制Hadoop-HA所有节点的启停。-- 配置该user(superUser)允许通过代理访问的主机节点 -->-- 把多个NameNode的地址组装成一个集群mycluster -->-- 配置该user(superUser)允许通过代理用户所属组 -->-- 配置该user(superUser)允许通过代理的用户-->-- 指定hadoop运行时产生文件的存储目录 -->-- 配置HDFS网页登录使用的静态用户为user -->
2024-02-07 09:05:42
3583
1
原创 CentOS7集群安装JDK1.8
3、分别再Hadoop102、Hadoop103、Hadoop104执行刷新配置文件。3、解压jdk的tar包到/opt/moudle目录。4、切换到/opt/moudle查看解压后的文件。2、将jdk上传到software文件夹里面。1、在虚拟机hadoop102新建两个目录。4、验证jdk是否安装成功。到此集群安装jdk完成!5、分发解压好的JDK。
2024-02-07 08:49:41
822
原创 集群分发脚本xsync
rsync是 "remote synchronization" 的简写,这个工具主要用于远程和本地系统之间同步文件和目录,优化了数据传输过程,只传输变化的部分。它被广泛应用于备份操作、镜像制作以及其他需要文件或目录同步的场景。rsync在功能丰富且高效的同时,也保证了传输安全性。
2024-02-06 08:30:18
767
原创 CentOS7集群配置免密登录
3、可以看到在家目录下面的.ssh目录中生成了两个文件,id_rsa(私钥)、id_rsa.pub(公钥)5、复制hadoop102机器的认证到其他机器上,在hadoop102上执行以下命令。4、将公钥复制到同一台机器hadoop102,7、配置成功后登录三台机器便不再需要输入密码了。文件中输入以下内容:IP hostname。至此三台虚拟机的免密登录配置完成~以下命令,执行命令后直接三次回车。6、测试是否可以免密登录。
2024-02-06 08:26:00
942
2
原创 CentOS7集群环境搭建(3台)
当安装完虚拟机之后,默认的ip分配方案为DHCP,每一次开机时的ip都是有可能不同的,这样就会导致每次远程连接都需要查看ip地址.设置为静态ip后, 当前虚拟机的ip地址就不会在发生改变,,后期配置集群相关的内容时首要的要求就是ip必须为静态, 否则由于无法得到一个准确的ip地址,集群也是构建不了的。2、分别修改三台虚拟机的名称为hadoop102、hadoop103、hadoop104,保存退出:Esc=>Shift + 冒号:=>wq。6、输入虚拟机名称,选择存储位置,点击完成。
2024-02-05 08:46:44
1476
原创 CentOS7安装教程
16、选择镜像文件所在的路径,点击关闭17、点击完成18、启动虚拟机19、选择第一个(点击进去后鼠标出不来,点击Ctrl+Alt键可以解放鼠标),然后回车20、中间如果有镜像检查,按Esc键跳过检查,等待一会后,出现如下界面,语言选择中文中的简体中文,点击继续21、点击软件选择22、选择。
2024-02-05 08:37:28
973
原创 MYSQL之锁
锁是计算机协调多个线程或者进程并发访问某一资源的机制。在数据库中除了传统的计算资源(CPU、RAM,I/O)的争用之外,数据也是一种共给多用户共享使用的资源。如何保证数据的并发访问的一致性、有效性是所有数据库必须解决的一个问题,锁冲突也是影响数据库并发访问性能的一个重要因素。从这个角度来说,锁对数据库而言显得尤为重要,也更复杂。分类:MYSQL中的锁,按照锁的粒度分为以下三大类:1、全局锁:锁定数据库中的所有表2、表级锁:每次操作锁住整张表3、行级锁:每次操作锁住对应的行数据。
2024-01-26 20:51:39
1086
原创 MYSQL之SQL优化
1、Using filesort:通过表的索引或全表扫描,读取满足条件的数据行,然后在排序缓冲区sort buffer中完成排序操作,所以只要不是通过索引排序直接返回结果的排序都叫FileSort排序。4、如果不可避免的出现file sort,大数据量排序时(缓冲区不够用的话会在磁盘排序,效率很慢),此时可以适当增大排序缓冲区大小sort_buffer_size(默认256k)页可以为空,也可以填充一半。在InnoDB存储引擎中,表数据都是根据主键顺序组织存放的,这种存储方式的表称为索引组织表。
2024-01-25 09:36:51
577
原创 MYSQL之索引语法与使用
如果索引了多列(联合索引),要遵守最左前缀法则指的是查询从索引的最左列开始,并且不跳过索引中的列。尽量使用覆盖索引(查询使用了索引,并且要返回的列能在该索引中全部找到),减少select*(要回表查询,使性能下降)using index:查找使用了索引,但需要的数据在索引列能找到,不需要回表查询。用or分隔开的条件,如果or前的条件中的列有索引,而后面的列中没有索引,那么涉及的索引豆瓣不会被用到。在业务场景中,如果存在多个查询条件,考虑针对查询字段建立索引时,建立联合索引,而非单列索引。
2024-01-22 20:39:35
1569
1
原创 MySQL之索引结构
索引是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。下图演示有索引和无索引的区别:备注:上述二叉树索引结构的只是一个示意图,并不是真实的索引结构。
2024-01-20 10:18:30
1328
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人