- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 机器学习中的数学(4):期望
期望数学期望(或均值,亦简称为期望)是试验测试中每次可能结果的概率乘以其结果的总和,是最基础的数学特征之一,它反映随机变量平均取值的大小。例:拉老虎机每次1元,如果三个窗口全部恰到好处的亮起来,就会赢钱,当前老虎机赢钱的规则是出现三个$赢20元,两个$和1个樱桃赢15元,三个樱桃赢10元,三个柠檬赢5元,各图片出现的概率如下: $ 樱桃 柠檬 其他 0.1 0.2 0.2 0.5 各事件的概率:P($,$,$)=0.1x0.1x0
2021-08-23 15:34:10 719
原创 sql查询数据的上一条或下一条数据
LAG与LEAD分析函数可以在同一次查询中获取同一字段的前N行的数据(LAG)或者后N行的数据(LEAD)作为独立列。LAGLAG它同时提供对多行表的访问,而不需要自连接。给定从查询返回的一系列行和游标的位置,LAG可以访问位于该位置之前给定物理偏移量的行。您可以给偏移参数指定一个大于零的整数。如果不指定偏移量,则其默认值为 1。如果偏移量超出窗口的范围,则返回可选值。如果不指定默认值,则其默认值为NULL。语法:LAG { (value_expr [,offset [,default..
2021-07-27 13:47:25 6563 1
原创 MySQL时间参数获取
由于开发需要对时间参数的获取进行汇总,希望对大家有所帮助。注:以下所有汇总主要针对5.7版本,mysql8以上版本未进行验证,如需使用可先验证后使用。CURTIME(),CURRENT_TIME()获取日期格式为:23:59:59CURTIME()+0获取的日期为FLOAT类型:235959.000000CURDATE(),CURRENT_DATE()获取日期格式为:2021-04-12CURDATE()+0获取的日期为int类型:20210412CURRENT_TIMESTAMP(
2021-04-12 11:23:47 623
原创 Kettle入门-简介、连接资源库
Kettle简介ETL是数据从数据源经过EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)到到目标数据的整体过程,数仓建设过程中不可或缺的一部分,也是数据量增长的重要体现,随着技术的革新以及数据体量的不断增长ETL的局限性也逐渐体现出来,其中IBM公司提出了新的数据处理流程ELT,这个之后有时间可以分析一下。虽然ETL数据处理流程有一定的弊端,但是对于绝大部分大企业及中小企业来说,在新的数据处理流程没有出来之前ETL仍然是数据处理的绝佳途径。大公司凭借自身的实力搭建自己独有的ETL平台
2021-04-02 20:10:44 834
原创 sql优化汇总
SQL优化常用的优化方式汇总,希望对小伙伴们有帮助。1、select查询过程中尽量避免使用select * from table,务必指明字段名称;2、对于表数据的参看,尽量使用limit,限制向客户端传送的数据量;3、尽量避免在where子句中对字段进行null值判断;在数据保存过程中数字字段尽量默认值0,确保字段列不存在null值;4、尽量避免在where子句中使用!=或<>操作;5、尽量避免在where子句中使用or来连接条件6、在where子句中慎用使用in和no
2021-03-26 11:42:33 174 1
原创 hive中正则表达式的使用
hive中正则表达式的使用。1、regexpregexp的用法与like相似,但是在进行复杂匹配或者同一字段匹配不同字符串且有先后顺序时,regexp使用较为方便。语法: A REGEXP B2.regexp_extract语法:regexp_extract(string subject, string pattern, int index)使用pattern从给定字符串中提取字符串。如: regexp_extract('foothebar', 'foo(.*?)(bar)',
2021-02-22 11:24:17 2350
原创 使用sql语句解析json字符串
发现当前数据库对字符串的解析都是使用存储过程,但是大部分公司不建议使用存过,无奈之下写了如下的解析方式:原始数据如下图:经过数据分析发现,每个键值对的分隔符是","(两个引号加一个英文逗号) 数据进行第一步去除数值中两侧{},变更","为~(下面在如果使用的是regexp_substr()函数可不进行变更,使用变更的主要原因是下面的strsplit()只能使用一个字符varchar(1),是规定还是写的不对,目前不是很清楚),去除多余双引号,得到数值如下: 然后对数据进行行转.
2021-02-20 15:10:36 3576
原创 机器学习中的数学(3):距和差
该文主要写统计学习过程中遇到的距和差。例:大学篮球队有学员毕业,现需招一个新人进入球队。在经过多场比赛后,球队教练得到了如下数据:王二 每场比赛得分 7 8 9 10 11 12 13 频数 1 1 2 2 2 1 1 张三 每场比赛得分 7 9 10 11 13 频数 1 2 4 2 1
2021-01-26 21:41:08 466
原创 vertica中时间处理
vertica不是常用的数据库,在网上进行资料查询不是很容易找到,目前利用空余时间对一些常用到的命令进行归纳,希望对别人有所帮助。该文主要讲解vertica中常用到的时间处理。
2021-01-20 16:59:24 8840
原创 机器学习中的数学(1):频数
最近在学习统计学,为数据挖掘学习打基础。以下是对一些简单统计学知识的归纳介绍。频数也叫次数,指一个特定组或者特定区域内的对象数据目,表现各对象的频繁程度。例如:游戏公司开发的游戏下载量游戏下载量 类别 数量 体育 35896 策略 343892 动作 767653 射击 34556 其他 678 游戏下载数据量代表了各游戏类别的频数,频数越大说明该类型的游戏越受到大众喜欢,以上的频数可以为公司游戏开发方向进行指导。频数密度指频
2021-01-14 20:14:18 1182
原创 vertica数据库sql实现列拼接
发现现在网上出现的sql函数都不能满足开发需求,主要原因还是vertica数据库的资料不多,可参考的资料还是最流行的几个数据库进行试用,现对vertica数据库如何实现列拼接进行展示:STRCAT函数注意:在vertica数据使用strcat函数时字段类型一定要是varchar类型,否则容易造成数据库宕机。如果是字段类型为非varchar类型,可以先使用to_char进行转换...
2019-02-24 19:10:17 4986 4
原创 Notepad++常用插件下载地址
Notepad++是编程人员常用的软件,插件也是必须的,很多插件下载收费或者使用64位下载常被忽悠,经过多次碰壁获取这个地址,分享给需要的朋友Notepad++插件下载地址 https://github.com...
2018-10-21 00:06:02 4462
原创 google浏览器搜索栏自动翻译消失如何找回
由于本人外文水平有限,由挺想了解外文资料,Google浏览器中自动翻译就成了必不可少的工具。最近更新的浏览器的版本,更新后发现自动翻译消失了,找了不少办法最终解决了,为了让后来者少走弯路,做如下总结:1、点击浏览器右上角三点 → 【设置】2、选择【高级】3、选择【语言】→【语言】4、打开【询问是否翻译非您所用语言的网页】重启浏览器,打开网页观察搜索栏是否出现翻译...
2018-09-12 23:32:40 20629 3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人