- 博客(96)
- 收藏
- 关注
原创 stata基本操作
我们知道哑变量是只有元素0和1的变量,根据现有变量来生成哑变量,可以使用判定条件来设置,比如现有变量s表示上学的年限,上学年限大于等于16的表示接受了高等教育,否则就是没有接受高等教育,所以我们可以设置是否接受了高等教育这一哑变量,变量名称为colleg,判定条件就是变量s是否大于等于16,具体代码为 gen colleg = (s>=16)。此为变量管理器,在任务管理器中,可以在右侧选中变量,然后在左侧设置变量的标签,类型等,这里把变量s的标签改为schooling。也可以使用变量管理器进行更改。
2024-10-18 17:01:16
5585
原创 SQL面试
问题1:创建表act_output,保存以下信息:区分不同活动,统计每个活动对应所有用户在报名参与活动之后产生的总订单金额、总订单数(一个用户只能参加一个活动)(2)加入活动开始后每天都会产生订单,计算每个活动截止当前(2019-08-12)平均每天产生的订单数,活动开始时间假设为用户最早报名时间。(2)统计每天符合A操作后B操作的操作模式的用户数,即要求AB相邻。(1)计算网站每天的访客数以及他们的平均操作次数;求每组商品的浏览用户数(同组内同一用户只能算一次)(3) 计算网络每日新增访客表。
2024-08-10 15:12:02
333
1
原创 协方差分析与交互分析
协方差分析亦称“共变量(数)分析”。方差分析的引申和扩大。基本原理是将线性回归与方差分析结合起来,调整各组平均数和 F 检验的实验误差项,检验两个或多个调整平均数有无显著差异,以便控制在实验中影响实验效应(因变量)而无法人为控制的协变量(与因变量有密切回归关系的变量)在方差分析中的影响。
2024-06-19 14:19:51
1605
原创 结构方程模型
结构方程模型SEM是一种多元数据分析方法,其可用于研究多个潜变量之间的影响关系情况。结构方程模型共包括两部分结构,分别是测量关系和影响关系。比如下面这个结构方程模型,其包括四个潜变量,分别是Factor1感知质量、Factor2感知价值、Factor3顾客满意和Factor4顾客忠诚。从测量关系来看:Factor1感知质量由A1-A4共4项测量;Factor2感知价值由B1-B3共3项测量;Factor3顾客满意由C1-C3共3项测量;Factor4顾客忠诚由D1~D2共2项测量。
2024-06-05 08:57:23
1917
原创 回归分析-spss
如果协变量中有分类变量,需要点击分类按钮定义分类变量,这里分类变量为学历,把学历配置到分类协变量中,然后参考类别默认为最后一个,也可以改成第一个,但是改选为第一个后需要点击变化量按钮完成更改。&emsp这个是自变量中的分类变量编码表,这里需要注意频率,如果频率差距过大,比如一个占比90%,一个占比10%,这种就是偏态,会对结果造成一定的影响,上图中的频率基本对半开,符合要求。注意:本次分析没有分类变量,这里把学历放上去是为了进行演示,后面的分析都是没有学历这个分类变量的。
2024-04-20 19:09:59
2705
原创 问卷调查分析-spss
在我们的问卷调查中,一般会有被调研人员的基本信息(一般有10个左右的题),而这些数据一般都是用数值进行表示,这时就需要我们来对这些数值代表的含义进行配置,例如性别这一列用1代表男2代表女,这样的列需要我们对值进行定义。在spss的变量视图(可在此视图中配置各列的属性)中“值”这一列进行配置,如图所示,值填写列中值,标签填写此值代表的含义,然后点击添加按钮就完成此值的配置。
2024-04-02 10:15:25
4568
原创 大数据之路-实时技术(第五章)
相对于离线批处理技术,流式实时处理技术作为一个非常重要的技术补充,在阿里巴巴集团内被广泛使用。在大数据业界中,流计算技术的研究是近年来非常热门的课题。业务诉求是希望能在第一时间拿到经过加工后的数据,以便实时监控当前业务状态并做出运营决策,引导业务往好的方向发展。比如网站上一个访问量很高的广告位,需要实时监控广告位的引流效果,如果转化率非常低的话,运营人员就需要及时更换为其 广告 以避免流量资源的浪费。在这个例子中,就需要实时统计广告位的曝光和点击等指标作为运营决策的参考。
2024-02-22 16:44:22
1498
原创 大数据之路——离线数据开发(第四章)
数据开发流程与调度系统的关系如图 4.8 所示。用户通过 平台提交、发布的任务节点,需要通过调度系统,按照任务的运行顺序调度运行。
2024-02-02 11:04:08
1102
原创 大数据之路——数据同步(第三章)
如第一章所述,我们将数据采集分为日志采集和数据库数据同步两。数据同步技术更通用的含义是不同系统间的数据流转,有多种不。主数据库与备份数据库之间的数据备份,以及主系统与。子系统之间的数据更新,属于同类型不同集群数据库之间的数据同步。另外,还有不同地域、不同数据库类型之间的数据传输交换,比如分布。式业务系统与数据仓库系统之间的数据同步。服务或数据应用两个方面。本章侧重讲解数据从业务系统同步进入数据。含数据从业务系统同步进入数据仓库和数据从数据仓库同步进入数据。仓库这个环节,但其适用性并不仅限于此。
2024-01-24 15:16:29
815
原创 大数据之路-日志采集(第二章)
文章目录2.1 浏览器的页面日志采集2.1.1 页面浏览日志采集流程2.1.2 页面交互日志采集流程2.1.3 页面日志的服务器端清洗和预处理2.2 无线客户端的日志采集2.2.1 页面事件2.2.2 控件点击及其他事件2.2.3 特殊场景2.2.4 H5 & Native 日志统一2.2.5 设备标识2.2.6 日志传输日志采集的挑战2.3.1 典型场景1. 日志分流与定制处理2.3.2 大促保障阿里巴巴的日志采集体系方案包括两大体系: Ap us.JS Web(基于浏览器)日志采集技术方案:
2024-01-24 15:03:20
1743
原创 健身房训练计划—背部
动作要领:1,杆的高度在膝关节的高度,握距与肩同宽,抓稳时(起步抓起来时)肩胛骨向下向后收。2,抓起杠铃后,背部是向后收紧的,不是向上耸的。3,吸气俯身让杠铃杆滑到膝盖的高度,杠铃杆下降过程中是背部在控制杠铃的速度,吐气收。注意事项:负重是要给到肩关节靠背来做抗组,不要想上耸肩。肩胛骨向后向下。
2023-03-23 14:12:24
3536
原创 Python 函数
函数是 Python 中最主要也是最重要的代码组织和复用手段。作为最重要的原则,如果你要重复使用相同或非常类似的代码,就需要写一个函数。通过给函数起一个名字,还可以提高代码的可读性。创建函数函数使用def关键字声明,使用return关键字返回结果:def my_function(x, y, z=1.5): if z > 1: return z * (x + y) else: return z / (x + y)函数可以拥有多个return语句
2022-05-25 15:22:28
138
原创 Python 的数据结构
一、数据结构和序列1,元组元组是一个固定长度,不可改变的Python序列对象。创建元组的最简单方式,是用逗号分隔一列值:In [1]: tup = 4, 5, 6In [2]: tupOut[2]: (4, 5, 6)当用复杂的表达式定义元组时,最好,比如这样In [3]: nested_tup = (4, 5, 6), (7, 8)In [4]: nested_tupOut[4]: ((4, 5, 6), (7, 8))用tuple可以将任意序列或迭代器转化为元组In
2022-05-24 16:19:19
509
原创 R语言实操
本次实操主要是用来对数据的处理,筛选,模糊查询以及批量读取文件夹中的文件名称#批量读取文件架中的地址#地址变量#代码保存的地址path <- 'C:/Users/zhangxudong/Desktop/其他/合并txt数据'#数据源地址ypath <- 'C:/Users/zhangxudong/Desktop/其他/合并txt数据/数据源'#结果数据保存地址jpath <- 'C:/Users/zhangxudong/Desktop/其他/合并txt数据/结果'ge
2022-01-26 15:23:04
1031
转载 维度表和事实表
文章链接:https://blog.csdn.net/weixin_42796403/article/details/112204881
2021-11-18 15:08:57
129
转载 【无标题】
谈谈数据库的ACID文章引用:https://blog.csdn.net/shuaihj/article/details/14163713
2021-11-18 15:07:56
100
转载 R语言dplyr包:高效数据处理函数(filter、group_by、mutate、summarise)
R语言dplyr包:高效数据处理函数(filter、group_by、mutate、summarise)
2020-09-02 20:25:26
1993
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅