自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(94)
  • 资源 (6)
  • 收藏
  • 关注

原创 【Spark】漏斗分析指南

显著性分析是一种统计方法,用于评估观察到的差异是否可能是由于偶然因素造成的,还是反映了真实的、有意义的差异。在A/B测试中,我们使用显著性分析来确定两个变体之间的差异是否足够大,以至于我们可以有信心地认为这种差异不是随机发生的。在A/B测试中,“variant”(变体)指的是被测试的不同版本或变化。控制组(Control):通常被称为"A"变体,代表当前的版本或默认状态。实验组(Treatment):通常被称为"B"变体,代表新的、经过修改的版本。

2024-08-29 21:58:07 1163

原创 【数仓建模过程】Spark数据清洗篇

记住,实际的实现可能需要根据你的具体需求和数据特性进行调整。同时,定期监控和优化你的Spark作业以确保其效率和可靠性也是很重要的。对数据进行必要的清洗和转换操作,以符合DWD层的要求。通常,DWD层的数据会以Hive表的形式存储。根据需要使用Spark的优化技术,如缓存频繁使用的数据、调整分区等。基于数据质量检查的结果,我们可以更有针对性地进行数据清洗和转换。在进行数据清洗之前,我们应该先检查数据质量,以了解数据的现状。记录数据的血缘关系和元数据,这对于数据治理和追踪非常重要。

2024-08-29 21:27:55 542

原创 【python】Gpt-embedding文本建模

设定主题集合Tt1t2tnTt1​t2​tn​和对应的关键词集合KtiK(t_i)Kti​。

2024-08-27 12:28:54 848

原创 【MySQL】MyISAM Static 与 MyISAM Dynamic 的区别

只要表中包含可变长度的数据类型,MyISAM 将会被视为 Dynamic。选择 MyISAM Static 还是 MyISAM Dynamic 取决于数据的特性和应用场景。如果数据长度一致且对性能要求高,选择 Static;如果数据长度不一且需要灵活性,选择 Dynamic。通过或命令,可以轻松判断一个表是使用 MyISAM Static 还是 MyISAM Dynamic。

2024-08-24 19:07:41 774

原创 【MySQL】HEAP 表(MEMORY 表)

HEAP 表适合用于需要快速访问的临时数据,但由于其数据易丢失,使用时需谨慎。适合用于会话管理、缓存等场景。通过调整系统变量,可以有效控制 HEAP 表的最大尺寸,以满足应用程序的需求。

2024-08-24 18:59:18 384

原创 【MySQL】数据库性能分析的方法与命令

【代码】【MySQL】数据库性能分析的方法与命令。

2024-08-24 16:03:46 1017

原创 【MySQL】MySQL 存储引擎,ACID特性,外键约束

外键约束是指在一个表中定义一个字段(或字段组合),该字段引用另一个表的主键或唯一键。外键用于确保数据的参照完整性,防止无效数据的插入。在这个例子中,如果删除某个客户(Customers 表中的记录),与该客户相关的所有订单(Orders 表中的记录)也会被自动删除。如果更新某个客户的 ID,所有引用该客户 ID 的订单记录也会自动更新。

2024-08-24 15:20:19 650

原创 【MySQL】字符串存储类型比较

最大长度在 MySQL 5.0.3 之前为 255,之后可达 65,535 字符。TEXT 存储在外部,VARCHAR(小于等于 768 字节)通常存储在行内。ENUM/SET 限制输入选项,CHAR/VARCHAR 自由输入。只存储必要的字符,额外使用 1-2 字节存储长度。不存储在数据行中,而是单独存储,行中包含指针。CHAR 固定长度,VARCHAR 可变长度。BLOB 用于二进制数据,TEXT 用于文本。适用于长度可变的字符串(如姓名、地址)适用于有限选项的数据(如性别、状态)

2024-08-24 15:01:15 542

原创 【MySQL】MySQL 中 REGEXP 的用法

在 MySQL 中,REGEXP是一种用于进行正则表达式匹配的运算符。它允许你在查询中使用正则表达式来匹配字符串模式。

2024-08-24 14:46:43 563

原创 【MySQL】MySQL 中 ENUM 的用法

在创建表时,可以使用ENUM数据类型定义列。在这个例子中,status 列只能包含 ‘active’、‘inactive’ 或 ‘suspended’ 这三个值。ENUM 是一个方便的 MySQL 数据类型,用于限制列的值为一组预定义的字符串,确保数据的有效性和一致性。

2024-08-24 14:38:27 420

原创 【大数据】并发与隔离

并发是现代数据库系统的重要特性,通过锁机制、MVCC、事务调度等技术实现。合理的并发控制能够提高系统性能,同时保持数据的一致性和完整性。虽然 InnoDB 提供了强大的并发控制机制,但合理的设计和配置仍然至关重要。通过选择合适的隔离级别、优化查询、监控性能等措施,可以最大限度地发挥 InnoDB 的优势,确保高效的并发处理。

2024-08-24 14:19:56 698

原创 【MySQL、Hive】分区表

SQL 本身并不直接支持多线程处理,因为 SQL 是一种声明式语言,主要用于定义和操作数据库中的数据。多线程通常是在应用程序层面实现的。然而,有一些方法可以在 SQL 环境中优化并发处理和提高性能,这些方法在某种程度上可以被视为"多线程"的替代方案。

2024-08-24 13:58:15 320

原创 TEXTFILE 和 PARQUET 的区别

【代码】TEXTFILE 和 PARQUET 的区别。

2024-08-24 13:54:01 464

原创 【R语言】正则表达式 从字符串中提取数字

R语言 正则表达式 从字符串中提取数字

2023-01-01 22:43:05 1794 1

原创 【python】腾讯地图API通过经纬度获取所在省市

腾讯地图API通过经纬度获取所在省市

2022-12-28 15:12:12 1977

原创 【MySQL基础笔记】

MySQL基础篇笔记(更新中)

2022-11-13 20:39:21 1231

原创 【excel表的按行转置,并合并成一列,整理面板数据】【python】

按行转置数据,并合并成一列,整理成面板数据

2022-11-12 19:37:20 1986

原创 【面经,数据分析岗】某头部汽车外企,简称车企;某医疗科技外企,简称医企

数据分析岗面试经验

2022-11-04 17:39:09 368

原创 【如何定一个经管题目】(认真总结)

如何定一个经管题目

2022-10-29 23:31:35 87

原创 【ARIMA分产品销量预测】【python】

做70+个产品的销量预测,需输出预测的金额,置信区间,图表

2022-10-23 18:22:52 1578

原创 【提取文件名中的股票代码和年份】【python】

提取文件名中的股票代码和年份

2022-10-20 22:20:07 595 2

原创 如何验证一个因果效应【重要】

因果效应经验

2022-10-01 13:23:19 836

原创 Python打印99乘法表

for i in range(1,10): j=1 while(j<=i): print("{}*{}".format(j,i), end = " ") j+=1 print("\r\n")1*1 1*2 2*2 1*3 2*3 3*3 1*4 2*4 3*4 4*4 1*5 2*5 3*5 4*5 5*5 1*6 2*6 3*6 4*6 5*6 6*6 1*7 2*7 3*7 4*7 5*7 6*7 7*7 1*

2021-07-07 18:56:53 223

原创 【Andrew Gelman Data Analysis Using Regression and Multilevel/Hierarchical Models】4.9 exercises 解答

(部分不全)第一题Logarithmic transformation and regression: consider the following regression:log(weight) = −3.5+2.0 log(height) + errorwith errors that have standard deviation 0.25. Weights are in pounds and heights are in inches.(a) Fill in the blanks: app

2021-04-25 10:53:38 574

原创 【Andrew Gelman Data Analysis Using Regression and Multilevel/Hierarchical Models】3.9 exercises 解答

第一题The folder pyth contains outcome y and inputs x1, x2 for 40 data points, with a further 20 points with the inputs but no observed outcome. Save the file to your working directory and read it into R using the read.table() function.(a) Use R to fit a l

2021-04-22 12:45:36 487

原创 【统计学】R语言简单回归及其可视化

数据: kid.score mom.hs mom.iq1 91.18 164.75 121.502 70.00 167.86 102.003 80.00 165.00 107.004 93.31 163.71 110.005 98.00 179.25 120.006 99.00 172.00 123.007 92.88 169.93 126.248 95.87 158.00 114.569 93

2021-04-21 11:05:47 1803 2

原创 【Andrew Gelman Data Analysis Using Regression and Multilevel/Hierarchical Models】2.8 exercises 解答

自己写的答案,希望各位朋友们多加批评指正第一题A test is graded from 0 to 50, with an average score of 35 and a standard deviation of 10. For comparison to other tests, it would be convenient to rescale to a mean of 100 and standard deviation of 15.(a) How can the scores be l

2021-04-20 22:04:31 503

原创 爬虫学习笔记(一)

1、首先下载Anaconda2、在Anaconda中安装Jupyter notebook3、打开Jupyter notebook只需要在终端输入jupyter notebook4、打开一个网页,点新建,选择相应版本的python,我选择了python 35、在打开的网页编辑器上输入如下代码:import retest_string = "我是一个中国人。在学习爬虫。爬虫非常有趣。"regex = "爬虫"p_string = test_string.split("。")for line i

2020-11-02 17:17:21 114

转载 python网络爬虫笔记(一)

>>> import requests>>> r = requests.get("http://www.baidu.com")>>> r.status_code200>>> r.encoding = "utf-8" >>> r.text'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-

2020-10-25 21:22:23 642

原创 问题(一)

OLS回归问题1、对以下式子的证明不理解:β^1=β1+∑i=1n(xi−x‾)uiSSTx=β1+1SSTx∑i=1ndiui\hat \beta_1= \beta_1 + \frac{\sum_{i=1}^n(x_i-\overline x)u_i}{SST_x}=\beta_1 +\frac{1}{SST_x}\sum_{i=1}^nd_iu_iβ^​1​=β1​+SSTx​∑i=1n​(xi​−x)ui​​=β1​+SSTx​1​∑i=1n​di​ui​证明:β^1=∑i=1n(xi−x‾)

2020-10-24 14:25:56 873

原创 错误: 无法载入程辑包‘Matrix’

下载r软件包的方法(如果普通方法不行的话)packageurl <- "https://cran.r-project.org/bin/macosx/contrib/4.0/Matrix_1.2-18.tgz"install.packages(packageurl, repos=NULL, type="source")

2020-10-17 16:45:40 5055 3

翻译 【Andrew Gelman多元统计】(基于R)

仿真n.sims <- 1000n.girls <- rep (NA, n.sims) for (s in 1:n.sims){n.girls[s] <- rbinom (1, 400, .488)} hist (n.girls)从400个婴儿中医院出生的女婴数量的1000个模拟值的直方图,这是根据二项式概率分布进行模拟的,概率为0.488。(每次模拟的图像都略有不同)从模拟结果看到女孩出生数量的分布主要集中在190-210。如果我们要一个医院中女孩的个数,需要考虑会影响

2020-10-09 14:03:56 447

原创 【C语言】PTA二分查找

本题要求实现二分查找算法。函数接口定义:Position BinarySearch( List L, ElementType X );其中List结构定义如下:typedef int Position;typedef struct LNode *List;struct LNode { ElementType Data[MAXSIZE]; Position Last; /* 保存线性表中最后一个元素的位置 */};L是用户传入的一个线性表,其中ElementType元素可以通

2020-09-04 10:59:10 1763

原创 【殷人昆数据结构】第五章5.6 哈夫曼树Huffman代码的调试

哈夫曼树Huffman文章目录哈夫曼树Huffman哈夫曼树的作用主函数data.txt结果:HuffmanNode类定义HuffmanTree树类定义构造函数deleteTree函数output函数mergeTree函数整一个头文件概念:路径长度两个结点之间的路径长度 PL 是连接两结点的路径上的分支数。树的外部路径长度是各叶结点(外结点)到根结点的路径长度之和 EPL。树的内部路径长度是各非叶结点(内结点)到根结点的路径长度之和 IPL。树的路径长度 PL = EPL + IPL。n 个结

2020-09-02 17:15:34 419 1

原创 【殷人昆数据结构】第五章5.5 最大堆MinHeap代码的调试

最大堆MinHeap文章目录最大堆MinHeap主函数MinHeap最大堆类定义构造函数siftDown函数——下滑调整法siftUp函数——上滑调整算法Insert函数——将x插入最大堆RemoveMax函数整一个头文件主函数#include <fstream>#include "MaxHeap.h"using namespace std;int main(){ ifstream fin("data.txt"); assert(fin); int n; assert(fin

2020-09-01 14:10:34 153

原创 【殷人昆数据结构】第五章5.4 最小堆MinHeap代码的调试

最小堆MinHeap文章目录最小堆MinHeap主函数MinHeap最小堆类定义构造函数siftDown函数siftUp函数Insert函数RemoveMin函数——最小元素的删除整一个头文件data.txt:853 17 78 09 45 65 87 23主函数#include <fstream>#include "MinHeap.h"using namespace std;int main(){ ifstream fin("data.txt"); assert(fin

2020-09-01 11:24:20 281

原创 【殷人昆数据结构】第五章5.3 树的子女-兄弟表示Tree代码的调试

树的子女-兄弟表示Tree文章目录树的子女-兄弟表示Tree主函数树结点类定义Tree类定义RootParent与FindParent函数FirstChild函数NextSiblingPreOrder函数PostOrder函数LevelOrder 函数——层次遍历Find函数RemovesubTree函数IntendedText 函数Output函数ShowTree函数Createtree整一个头文件主函数#include "Tree.h"#include <fstream>#incl

2020-08-31 20:33:53 292

原创 【殷人昆数据结构】第五章5.2 线索树Treaded Binary Tree代码的调试

线索树Treaded Binary Tree主函数#include <iostream>using namespace std;#define eptmark '$'#include "ThreadTree.h"#include "ThreadTree.cpp"template<class T>void visit(ThreadNode<T> *p) { cout << p -> data << ' ';}int ma

2020-08-30 09:55:43 133

原创 【殷人昆数据结构】第四章5.1 完全二叉树BinaryTree代码的调试

二叉树BinaryTree主函数#include "BinaryTree.h"#include <iostream>#include <fstream>#include <iomanip>using namespace std;void visit(BinTreeNode<int> *t){ cout<<t->data<<" ";}int main(){ ifstream fin("data.txt"

2020-08-30 06:46:26 840

原创 【殷人昆数据结构】第四章4.3 稀疏矩阵SparseMatrix代码的调试

稀疏矩阵SparseMatrix主函数#include <iostream>#include "SparseMatrix.h"#include "SparseMatrix.cpp"using namespace std;int main(){ cout<<"+---------------------------------------------------------------+"<<endl; cout<<"#1 Construct

2020-08-27 17:05:38 1027

企业景气指数表2000-03 至 2020-12.zip

企业景气指数表2000-03 至 2020-12.zip

2021-04-24

Instabilities of Regression Estimates Relating Air Pollution to Mortality

Instabilities of Regression Estimates Relating Air Pollution to Mortality

2021-04-23

Felton, J., Mitchell, J., and Stinson, M. (2003)

Andrew Gelman统计学 延伸阅读

2021-04-22

【andrew gelman Data Analysis Using Regression and Mult】2.8 exercise solution.zip

【andrew gelman Data Analysis Using Regression and Multilevel-Hierarchical Models】2.8 exercise solution

2021-04-21

Linear Algebra Done Right Solutions Manual by Sheldon Axler (z-lib.org).pdf

这是上一篇《线性代数应该这样学》的答案。线性代数是大学基础课程,也是高级程序设计的前奏。这本《线性代数应该这样学》解决了国内教材普遍存在的,缺乏几何指导,学而无用的痛点。娓娓道来,将线性代数的精髓展现得淋漓精致。欢迎大家下载!!

2020-07-05

Linear Algebra Done Right by Sheldon Axler (z-lib.org).pdf

线性代数是计算机专业最基础的课程,这本《线性代数应该这样学》从空间开始,讲述n维空间向量,且不仅仅局限于欧式空间。娓娓道来,将线性代数的精髓讲述得淋漓精致。课后附有一些习题,可以看我上传的另外一个资源。

2020-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除