自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 机器学习中的数学(4):期望

期望数学期望(或均值,亦简称为期望)是试验测试中每次可能结果的概率乘以其结果的总和,是最基础的数学特征之一,它反映随机变量平均取值的大小。例:拉老虎机每次1元,如果三个窗口全部恰到好处的亮起来,就会赢钱,当前老虎机赢钱的规则是出现三个$赢20元,两个$和1个樱桃赢15元,三个樱桃赢10元,三个柠檬赢5元,各图片出现的概率如下: $ 樱桃 柠檬 其他 0.1 0.2 0.2 0.5 各事件的概率:P($,$,$)=0.1x0.1x0

2021-08-23 15:34:10 588

原创 sql查询数据的上一条或下一条数据

LAG与LEAD分析函数可以在同一次查询中获取同一字段的前N行的数据(LAG)或者后N行的数据(LEAD)作为独立列。LAGLAG它同时提供对多行表的访问,而不需要自连接。给定从查询返回的一系列行和游标的位置,LAG可以访问位于该位置之前给定物理偏移量的行。您可以给偏移参数指定一个大于零的整数。如果不指定偏移量,则其默认值为 1。如果偏移量超出窗口的范围,则返回可选值。如果不指定默认值,则其默认值为NULL。语法:LAG { (value_expr [,offset [,default..

2021-07-27 13:47:25 6201

原创 MySQL时间参数获取

由于开发需要对时间参数的获取进行汇总,希望对大家有所帮助。注:以下所有汇总主要针对5.7版本,mysql8以上版本未进行验证,如需使用可先验证后使用。CURTIME(),CURRENT_TIME()获取日期格式为:23:59:59CURTIME()+0获取的日期为FLOAT类型:235959.000000CURDATE(),CURRENT_DATE()获取日期格式为:2021-04-12CURDATE()+0获取的日期为int类型:20210412CURRENT_TIMESTAMP(

2021-04-12 11:23:47 576

原创 Kettle入门-简介、连接资源库

Kettle简介ETL是数据从数据源经过EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)到到目标数据的整体过程,数仓建设过程中不可或缺的一部分,也是数据量增长的重要体现,随着技术的革新以及数据体量的不断增长ETL的局限性也逐渐体现出来,其中IBM公司提出了新的数据处理流程ELT,这个之后有时间可以分析一下。虽然ETL数据处理流程有一定的弊端,但是对于绝大部分大企业及中小企业来说,在新的数据处理流程没有出来之前ETL仍然是数据处理的绝佳途径。大公司凭借自身的实力搭建自己独有的ETL平台

2021-04-02 20:10:44 749

原创 sql优化汇总

SQL优化常用的优化方式汇总,希望对小伙伴们有帮助。1、select查询过程中尽量避免使用select * from table,务必指明字段名称;2、对于表数据的参看,尽量使用limit,限制向客户端传送的数据量;3、尽量避免在where子句中对字段进行null值判断;在数据保存过程中数字字段尽量默认值0,确保字段列不存在null值;4、尽量避免在where子句中使用!=或<>操作;5、尽量避免在where子句中使用or来连接条件6、在where子句中慎用使用in和no

2021-03-26 11:42:33 148 1

原创 hive中正则表达式的使用

hive中正则表达式的使用。1、regexpregexp的用法与like相似,但是在进行复杂匹配或者同一字段匹配不同字符串且有先后顺序时,regexp使用较为方便。语法: A REGEXP B2.regexp_extract语法:regexp_extract(string subject, string pattern, int index)使用pattern从给定字符串中提取字符串。如: regexp_extract('foothebar', 'foo(.*?)(bar)',

2021-02-22 11:24:17 2233

原创 使用sql语句解析json字符串

发现当前数据库对字符串的解析都是使用存储过程,但是大部分公司不建议使用存过,无奈之下写了如下的解析方式:原始数据如下图:经过数据分析发现,每个键值对的分隔符是","(两个引号加一个英文逗号) 数据进行第一步去除数值中两侧{},变更","为~(下面在如果使用的是regexp_substr()函数可不进行变更,使用变更的主要原因是下面的strsplit()只能使用一个字符varchar(1),是规定还是写的不对,目前不是很清楚),去除多余双引号,得到数值如下: 然后对数据进行行转.

2021-02-20 15:10:36 3399

原创 机器学习中的数学(3):距和差

该文主要写统计学习过程中遇到的距和差。例:大学篮球队有学员毕业,现需招一个新人进入球队。在经过多场比赛后,球队教练得到了如下数据:王二 每场比赛得分 7 8 9 10 11 12 13 频数 1 1 2 2 2 1 1 张三 每场比赛得分 7 9 10 11 13     频数 1 2 4 2 1    

2021-01-26 21:41:08 405

原创 vertica中时间处理

vertica不是常用的数据库,在网上进行资料查询不是很容易找到,目前利用空余时间对一些常用到的命令进行归纳,希望对别人有所帮助。该文主要讲解vertica中常用到的时间处理。

2021-01-20 16:59:24 7851

原创 机器学习中的数学(2):均数

该篇主要写个人对几种均值的理解。

2021-01-19 19:39:58 1446

原创 机器学习中的数学(1):频数

最近在学习统计学,为数据挖掘学习打基础。以下是对一些简单统计学知识的归纳介绍。频数也叫次数,指一个特定组或者特定区域内的对象数据目,表现各对象的频繁程度。例如:游戏公司开发的游戏下载量游戏下载量 类别 数量 体育 35896 策略 343892 动作 767653 射击 34556 其他 678 游戏下载数据量代表了各游戏类别的频数,频数越大说明该类型的游戏越受到大众喜欢,以上的频数可以为公司游戏开发方向进行指导。频数密度指频

2021-01-14 20:14:18 760

原创 vertica数据库sql实现列拼接

       发现现在网上出现的sql函数都不能满足开发需求,主要原因还是vertica数据库的资料不多,可参考的资料还是最流行的几个数据库进行试用,现对vertica数据库如何实现列拼接进行展示:STRCAT函数注意:在vertica数据使用strcat函数时字段类型一定要是varchar类型,否则容易造成数据库宕机。如果是字段类型为非varchar类型,可以先使用to_char进行转换...

2019-02-24 19:10:17 4724 4

原创 Notepad++常用插件下载地址

Notepad++是编程人员常用的软件,插件也是必须的,很多插件下载收费或者使用64位下载常被忽悠,经过多次碰壁获取这个地址,分享给需要的朋友Notepad++插件下载地址 https://github.com...

2018-10-21 00:06:02 4349

原创 google浏览器搜索栏自动翻译消失如何找回

由于本人外文水平有限,由挺想了解外文资料,Google浏览器中自动翻译就成了必不可少的工具。最近更新的浏览器的版本,更新后发现自动翻译消失了,找了不少办法最终解决了,为了让后来者少走弯路,做如下总结:1、点击浏览器右上角三点 → 【设置】2、选择【高级】3、选择【语言】→【语言】4、打开【询问是否翻译非您所用语言的网页】重启浏览器,打开网页观察搜索栏是否出现翻译...

2018-09-12 23:32:40 20260 3

234G位置信令分析汇总.docx

234G位置信令分析汇总

2021-03-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除