- 博客(83)
- 收藏
- 关注
原创 大数据之路-实时技术(第五章)
相对于离线批处理技术,流式实时处理技术作为一个非常重要的技术补充,在阿里巴巴集团内被广泛使用。在大数据业界中,流计算技术的研究是近年来非常热门的课题。业务诉求是希望能在第一时间拿到经过加工后的数据,以便实时监控当前业务状态并做出运营决策,引导业务往好的方向发展。比如网站上一个访问量很高的广告位,需要实时监控广告位的引流效果,如果转化率非常低的话,运营人员就需要及时更换为其 广告 以避免流量资源的浪费。在这个例子中,就需要实时统计广告位的曝光和点击等指标作为运营决策的参考。
2024-02-22 16:44:22 1125
原创 大数据之路——离线数据开发(第四章)
数据开发流程与调度系统的关系如图 4.8 所示。用户通过 平台提交、发布的任务节点,需要通过调度系统,按照任务的运行顺序调度运行。
2024-02-02 11:04:08 588
原创 大数据之路——数据同步(第三章)
如第一章所述,我们将数据采集分为日志采集和数据库数据同步两。数据同步技术更通用的含义是不同系统间的数据流转,有多种不。主数据库与备份数据库之间的数据备份,以及主系统与。子系统之间的数据更新,属于同类型不同集群数据库之间的数据同步。另外,还有不同地域、不同数据库类型之间的数据传输交换,比如分布。式业务系统与数据仓库系统之间的数据同步。服务或数据应用两个方面。本章侧重讲解数据从业务系统同步进入数据。含数据从业务系统同步进入数据仓库和数据从数据仓库同步进入数据。仓库这个环节,但其适用性并不仅限于此。
2024-01-24 15:16:29 537
原创 大数据之路-日志采集(第二章)
文章目录2.1 浏览器的页面日志采集2.1.1 页面浏览日志采集流程2.1.2 页面交互日志采集流程2.1.3 页面日志的服务器端清洗和预处理2.2 无线客户端的日志采集2.2.1 页面事件2.2.2 控件点击及其他事件2.2.3 特殊场景2.2.4 H5 & Native 日志统一2.2.5 设备标识2.2.6 日志传输日志采集的挑战2.3.1 典型场景1. 日志分流与定制处理2.3.2 大促保障阿里巴巴的日志采集体系方案包括两大体系: Ap us.JS Web(基于浏览器)日志采集技术方案:
2024-01-24 15:03:20 1101
原创 健身房训练计划—背部
动作要领:1,杆的高度在膝关节的高度,握距与肩同宽,抓稳时(起步抓起来时)肩胛骨向下向后收。2,抓起杠铃后,背部是向后收紧的,不是向上耸的。3,吸气俯身让杠铃杆滑到膝盖的高度,杠铃杆下降过程中是背部在控制杠铃的速度,吐气收。注意事项:负重是要给到肩关节靠背来做抗组,不要想上耸肩。肩胛骨向后向下。
2023-03-23 14:12:24 1023 1
原创 Python 函数
函数是 Python 中最主要也是最重要的代码组织和复用手段。作为最重要的原则,如果你要重复使用相同或非常类似的代码,就需要写一个函数。通过给函数起一个名字,还可以提高代码的可读性。创建函数函数使用def关键字声明,使用return关键字返回结果:def my_function(x, y, z=1.5): if z > 1: return z * (x + y) else: return z / (x + y)函数可以拥有多个return语句
2022-05-25 15:22:28 91
原创 Python 的数据结构
一、数据结构和序列1,元组元组是一个固定长度,不可改变的Python序列对象。创建元组的最简单方式,是用逗号分隔一列值:In [1]: tup = 4, 5, 6In [2]: tupOut[2]: (4, 5, 6)当用复杂的表达式定义元组时,最好,比如这样In [3]: nested_tup = (4, 5, 6), (7, 8)In [4]: nested_tupOut[4]: ((4, 5, 6), (7, 8))用tuple可以将任意序列或迭代器转化为元组In
2022-05-24 16:19:19 252
原创 R语言实操
本次实操主要是用来对数据的处理,筛选,模糊查询以及批量读取文件夹中的文件名称#批量读取文件架中的地址#地址变量#代码保存的地址path <- 'C:/Users/zhangxudong/Desktop/其他/合并txt数据'#数据源地址ypath <- 'C:/Users/zhangxudong/Desktop/其他/合并txt数据/数据源'#结果数据保存地址jpath <- 'C:/Users/zhangxudong/Desktop/其他/合并txt数据/结果'ge
2022-01-26 15:23:04 866
转载 维度表和事实表
文章链接:https://blog.csdn.net/weixin_42796403/article/details/112204881
2021-11-18 15:08:57 63
转载 【无标题】
谈谈数据库的ACID文章引用:https://blog.csdn.net/shuaihj/article/details/14163713
2021-11-18 15:07:56 54
转载 R语言dplyr包:高效数据处理函数(filter、group_by、mutate、summarise)
R语言dplyr包:高效数据处理函数(filter、group_by、mutate、summarise)
2020-09-02 20:25:26 1723
原创 机器学习案例-信用卡诈骗识别。
数据简介本次数据为欧洲的信用卡的持卡人在2013年9月某两天的交易数据,由于涉及到数据的敏感性问题其中V1~V28的变量都是进行了主成分分析后合成的脱敏的数据。变量名称介绍数据预处理导入数据及数据初步展示data <- read.csv("creditcard.csv")head(data)#导入数据还可以使用reader包中的read_csv()函数,它可以显示导入数据的...
2020-07-08 09:19:20 1794 1
原创 电商指标体系之指标体系要素和要点
指标体系要素和要点核心指标和约束指标核心指标和约束指标,就是让我们不仅追求数量也要追求指标,例如设定综合指标时不仅需要核心指标也需要约束指标一起,其比例需要根据实际情况进行设置,一般是核心指标占比更大。例子正向和负向指标正向指标指的是指标越大越好负向指标指的是指标越小越好例子独立及共背指标共背指标是如果我们想要提高某一个指标,它需要多个职能(部门)共同努力才能提高的指标,这...
2020-05-07 01:15:04 1595
原创 电商指标体系之NPS体系
传统的用户满意度指标与大NPS检测指标的区别:从满意到忠诚NPS体系评估指标体系指标拆解;逐步细化,落地到点持续指标监控+评估优化机制评估周期用户体验地图...
2020-05-07 00:38:12 3049
原创 电商指标体系之KPTI_+KSF
KPI为关键业绩指标KSF为核心成功要素会影响KPI指标的达成。KPI和KSF都是经营指标基于业务理解进行直标的构建数仓构建和主题域电商的核心指标
2020-05-06 23:39:45 685
原创 电商指标体系之电商指标体系图谱
电商指标三大族谱1,财务指标2,经营指标3,体验指标财务指标不同阶段关注点差异财务会计最核心的3张报表1,利润表2,现金流量表3,资产负债表利润表的基本逻辑收入-成本=毛利润毛利率=毛利润/收入毛利润-费用=利润(亏损)利润率=利润/收入费用的构成1,销售费用:构建营销网络投入的费用,广告宣传,市场营销活动等,与收入最直接挂钩2,管理费用:管理活动相关的费用,...
2020-05-03 15:31:36 1481
原创 商业数据分析之行业研究
为什么要进行行业研究1,解除行业新人的迷茫2,市场环境变化带来的竞争导向加强(弄清楚其他公司在市场的定位,以便给自己一个差异化的定位)行业研究的范畴1,看现状2,看发展条件3,看趋势4,读模式如何观察行业如何估计行业规模如果是需求驱动的行业就去看消费者和场景如果是供给驱动的行业就去看资源和产能如果是互联网行业,可以看它是不是在改造或者替代什么传统行业;那么这个传统行业如果很...
2020-04-27 00:36:52 1102
原创 数据分析各种算法的总结;
常用机器学习算法比较聚类算法总结聚类的定义:聚类也称为聚类分析,指将样本分到不同的组中使得同一组中的样本差异尽可能的小,而不同组中的差异尽可能的大。聚类得到的不同的组称为簇,发现对象簇,使得同一个簇内的对象尽量相似,不同簇间的对象尽量不同。聚类和分类的区别无监督学习与分类不同,没有事先定义的类别标记。分类是一种监督学习,聚类是一种无监督学习,二者最主要的区别是聚类的样本没有类标号,而...
2020-04-15 00:36:24 3445
原创 caret包介绍学习之train函数介绍
caret包在机器学习会经常用到,它可以进行:数据预处理,特征选择,建模与参数优化,模型预测与检验。关于caret包在这些方面的应用可以参看文章:R语言之-caret包应用R语言caret包的学习(四)–建立模型及验证本次介绍的是caret包在模型与参数优化上面的应用,主要函数为train函数caret包中提供了很多种工具进行自动调整参数,train()函数作为接口,可以选择评估方法和度量...
2020-04-06 01:17:43 18434 4
转载 Rstudio,几个提高编程的小技巧
众所周知,月初的时候RStudio发布了1.0版本,引起了广大用户的关注与感慨,其中的多项重大亮点,大家都已经了解甚至试用了。除了notebook这种大尺度的逆天功能,RStudio作为一个IDE,还拥有众多或许不为太多人知的小细节。但正是这一系列小心思,默默提升了广大分析师们的工作效率。本文就是跟大家介绍其中的几个小技巧。全文内容照例由谷歌翻译,豹哥不负责审核。1.可分离的窗格用户可以将...
2020-04-02 22:58:29 1596
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人