weixin_42285610-CSDN博客

原创 hive与presto行转列sql写法

---------------------------------------------------------------------------------------------------------------hive--------------------customeridselect s_customer_profile_day.customerid from (select customerid, devset.deviceid from devicepro.

2022-02-23 11:42:06 810

原创学习-神经网络

BP网络的过拟合早停：将数据分成训练集与验证集，训练集来计算梯度，更新连接权和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，返回具有最小验证集误差的连接权和阈值。正则化：在误差目标函数中增加一个用于描述网络复杂度的部分，例如连接权和阈值的平方和。全局最小和局部最小试图跳出全局最小的策略以多组不同参数值初始化多个神经网络，按照标准方法训练后，取其中误差最小的解作为最终参数模拟退火算法，在每一步都以一定的概率接受比当前解更差的结果随机梯度下降...

2021-12-03 15:40:58 138

原创学习-决策树

划分选择信息增益ID3决策树学习算法就是以信息增益为准则来选择划分属性当在选择最佳属性值进行划分时，信息增益准则对可取值数据较多的属性有所偏好。意思是，假设当某个属性值有三个枚举值，另一个属性值有两个枚举值，通常来说，三个枚举值的信息增益要优于两个枚举值，这样在选择的时候会有一定的不公平性。为了减少这种偏好可能带来的不利影响，提出了C4.5决策树算法。增益率C4.5决策树算法使用增益率来选择最优划分属性。直接使用增益率准则对可取值数目较少的属性有所偏好，因此，C4.5采用的是

2021-11-25 20:01:30 140

原创 PR曲线（ROC曲线）是如何画出来的？

T:True--正确预测F:False--错误预测N: Negative--预测为负样本P: Positive--预测为正样本（PR曲线中的R）Recall = TP/(TP+FN)=TP / T（真阳率/召回率），所有正样本中有多大比例预测为正样本。（PR曲线中的P）Precesion = TP/(TP+FP) =TP / P（精准率），所有预测为正样本中有多大比例为真正的正样本。在ROC空间，ROC曲线越凸向左上方向效果越好。与ROC曲线左上凸不同的是，PR曲线是右上凸效果越好。

2021-10-11 11:11:12 4841

转载 MYSQL导出表结构（含列名、数据类型、字段备注注释）导出成Excel

在某种特定的业务场景下，我们只能是先快速开发，很多文档都是开发完成后补上去的，如数据库文档，遇到字段特别多的表这写起来真的很头疼，下面我就总结一下，MYSQL使用sql文件导出表结构（含列名、数据类型、字段备注注释）导出成Excel。执行如下sqlSELECT COLUMN_NAME 列名, COLUMN_TYPE 数据类型, DATA_TYPE 字段类型, CHARACTER_MAXIMUM_LENGTH 长度, IS_NULLABLE 是否为空, COLUMN_DEFAULT 默认值

2021-09-27 14:16:00 1023

转载 SSH 免密登录生成公钥与私钥

1.客户端生成公私钥本地客户端生成公私钥：（一路回车默认即可）ssh-keygen上面这个命令会在用户目录.ssh文件夹下创建公私钥cd ~/.sshls下创建两个密钥：id_rsa （私钥） id_rsa.pub (公钥)2.上传公钥到服务器这里测试用的服务器地址为：192.168.235.22用户为：rootssh-copy-id -i ~/.ssh/id_rsa.pub [email protected]上面这条命令是写到服务器上的ssh目录下去.

2021-09-22 11:22:41 1719

原创数据仓库规范调研

一、模型层次数据模型总体分为操作数据层（ODS）、数据明细层（DWD）、数据汇总层（DWS）、统一维度层（DIM）、数据应用层（ADS）。操作数据层（ODS），存储各类未处理的操作数据。同步：结构化（业务数据库）数据全量或增量同步。结构化：非结构化（日志）结构化处理后并存储。数据明细层（DWD），存储明细事实数据，保持与ODS层相同的颗粒度，进行数据清洗与规范化操作，剔除异常错误数据，适当扩展相关维度。数据汇总层（DWS），存储轻度汇总数据，在DWD的基础上进行相关维度组合的汇总.

2021-09-18 10:39:33 328

原创自然语言处理-003NLP定义以及歧义性-学习笔记

自然语言处理的难点：1. the challenge：multiple ways to express，对于同一个意思有多种表达方式2. the challenge：Ambiguity，一词多义，一个词在不同语境中表达的含义how to solve ambiguity?例： interest，没有任何语境下，按照三个意思的主观统计概率进行意思归类a financial interest in IBM (有语境的条件下)，有data输入->更新主管概率（认知），要考虑上下文处理，NL

2021-07-12 17:34:07 580

转载 Notepad++的SQL格式化插件

一、找到下载插件地址：https://www.sqlinform.com/download-free-notepad-plugin/根据你是 64 位还是 32 位Notepad++ 来下载。二、把下载后的插件复制到 Notepad++所在文件夹，例如我的就是：三、打开 Notepad++, 设置=》导入=》导入插件，选择刚才的文件，导入。四、创建新文件，输入 sql , 按快捷键： alt + shift + f , 即可格式化 sql 代码了。转载自https://www

2021-05-13 19:43:02 3728

转载 linux 批量查找并替换文件夹下所有文件的内容

1.批量查找某个目下文件的包含的内容，例如：grep -rn "要找查找的文本" ./2.批量查找并替换当前文件夹下的文件内容。 sed -i "s/要找查找的文本/替换后的文本/g" `grep -rl "要找查找的文本" ./`3.批量查找并替换任意文件夹下的文件内容。sed -i "s/要找查找的文本/替换后的文本/g" `grep -rl "要找查找的文本" /任意文件夹`使用时注意空格的存在！转载自：https://blog.csdn.net/lukenc/art

2021-04-28 19:55:21 405

原创不同集群间的hive表数据迁移

1. 将老环境中的数据打包下载下来HADOOP_USER_NAME=hive hadoop fs -ls hdfs://nameservice2/user/hive/warehouse/gfsales.db/t_zyk_price_detail/isonline=online/timedim=2hadoop fs -get hdfs://nameservice2/user/hive/warehouse/datashow.db/s_used_position_provtar -zcvf xxx.t

2021-04-28 14:19:23 328

转载 Hive Mapjoin相关学习

笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。一、Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join,即：在Reduce阶段完成join.整个过程包含Map、Shuffle、Reduce阶段。 Map阶段读取源表的数据，Map输出时候以Join on条件中的列为key，如果Join有多个关联键，则以

2021-04-28 12:08:03 120

原创 Presto sql常用小技巧

array_position实现自定义排序presto sql的查询结果期望按照固定顺序输出，可以使用array_position函数。`select LaunchSource from tableorder by array_position(array['all','FTE','setting'],LaunchSource) ` 其中LaunchSource为排序依赖的字段，array内字符串可自定义，以此实现自定义排序presto 计算当月天数的公式select day_of_mont

2021-03-06 16:51:27 3232

原创深入浅出数据分析——贝叶斯统计

贝叶斯例子：蜥蜴流感若某人已患蜥蜴流感：试验结果为阳性的概率为90%。（真阳性）若某人未患蜥蜴流感：试验结果为阳性的概率为9%。（假阳性）若某人已患蜥蜴流感：试验结果为阴性的概率为10%。（假阴性）若某人未患蜥蜴流感：试验结果为阴性的概率为91%。（真阴性）研究表明全国1%的人患有蜥蜴流感，而你这次试验结果为阳性，请问你患有蜥蜴流感的概率为多少？在试验结果为阳性的条件下，患有蜥蜴流感的...

2020-02-24 23:29:28 750

原创天池-工业蒸汽量预测-DAY1

天池-工业蒸汽量预测-DAY1编写代码记录运行结果总结及后续展望编写代码记录此博客为笔记博客，记录当天的代码及一些感想// An highlighted block#!/usr/bin/python# coding=UTF-8import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport ...

2019-12-04 00:01:10 332

weixin_42285610的博客