吾我-CSDN博客

原创 2.数据仓库-kettle抽取Mysql数据

1）打开Spoon，Spoon界面如下图2）点击左上角图标3）点击下拉菜单的【转换】4）点击【核心对象】中的【输入】5）在展开的菜单中双击【表输出】6）双击【表输出】7）点击【新建】8）配置源数据库信息选择就相应的数据库选择相应的连接方式填写数据库相关信息（填写源数据库的相关信息）9）编写sql, 查询所需数据...

2018-07-17 01:10:25 4076 1

原创 1.数据仓库-概览

数据仓库目前总共有4个部分： 1）ETL 2）数据模型 3）调度 4）可视化一：ETL 1）目前ETL 主要使用kettle、Python、sql。 Kettle 在目前仓库的作用，更多的是从源库将数据抽取到数据仓库当中。 Sql 主要是数据的聚合和清洗 Python 主要数据的清洗。目前源数据库分为mongoDB 和 mysql，所以在抽取这二者的数据库时...

2018-07-17 01:06:34 318

原创编译器《1》

ELF一般说Linux上的可执行文件，通常是指ELF(Executable and Linking Format) 这种形式的文件。在Linux下使用file 命令能够查看文件是否符合ELF的形式。ELF 文件中包含了程序（代码）以及如何运行该程序的相关信息（元数据）。程序（代码）就是指机器语言（machine language）的列表。机器语言机器语言是唯一一种CPU能...

2018-07-17 00:34:29 114

转载欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-06-29 09:33:52 243

原创 Pentaho CDE 使用教程

pentaho CDE

2017-03-14 11:34:36 3717

原创使用Schema Workbench创建Cube教程

1、设置数据库2、创建Schema3、创建Cube4、测试Cube5、上传Cube到pentaho6、使用Saiku打开Cube

2017-03-13 13:42:27 5553 1

原创监控数据仓库环境

数据仓库监控指标确定发生了什么增长，增长发生在什么地方，增长以什么速率发生确定哪些数据正在被使用估算最终用户得到的响应时间确定谁在实际使用数据仓库说明最终用户正在使用数据仓库中的多少数据精确支出数据仓库何时被使用监测数据仓库使用率水平数据监控处理期间，可以建立的数据概要文件数据仓库中所有表的目录这些表的内容概要数据仓库中表的增长情况概要用于访问表的可用的索引目录汇总表和汇总

2017-02-05 23:41:13 651

原创数据仓库之系统开发周期（SDLC）

数据仓库SDLC实现数据仓库集成数据检验偏差针对数据编程设计DSS系统分析结果理解需求传统数据库SDLC收集需求分析设计编程测试集成实现

2017-02-05 23:01:13 782

原创数据仓库之数据一致性

数据仓库之数据一致性不同阶段获取同样的指标，但是输出的数据不同，无法保持所有数据的一致性情况栗子：注册用户数：是在公司表中存在，且公司名称不为空的数据。存在问题：在一月份注册数据10条，填写公司名称的有8条,此时统计注册公司数为：月份数量 1 8在2月份的时候未填写公司名称的用户，开始填写公司名称。然后3月份的时候再次统计注册公司数：月份数量 1

2017-01-18 15:42:45 4257 1

原创 Logistic回归

Logistic回归 Logistic回归该算法使用海维塞得阶跃函数进行二值分类，训练算法的过程就是在寻找回归系数。分类时用回归系数和输入向量的点乘计算阶跃函数的参数，寻找回归系数的过程可以使用梯度上升法，选择移动量最大的方向来迭代更新系数优点计算代价不高，易于理解和实现缺点容易欠拟合，分类精度可能不高适用数据类型数值型和标称型数据一般过程收集数据准备数据：由于需要进行距离计算，因

2016-11-22 23:36:54 289

原创 Mysql获取特定时间

--获取当前日期selectcurdate();--获取当月最后一天。selectlast_day(curdate());--获取本月第一天selectDATE_ADD(curdate(),interval-day(curdate())+1day);--获取下个月的第一天selectdate_add(curdate()-day(curdate())+1,interval1month); --

2016-11-22 14:11:15 328

原创朴素贝叶斯

朴素贝叶斯朴素贝叶斯通过对目标数据计算概率，选择概率最大的分类。算法需要一个先验输入，例如邮件分类系统中需要对此前收到的邮件进行统计算垃圾邮件的占比优点在数据较少的情况下仍然有效，可以处理多类别问题缺点对于输入数据的准备方式较为敏感适用数据类型标称型数据一般过程收集数据准备数据：需要数值或者布尔型数据分析数据：有大量特征时绘制特征作用不大，此时使用直方图效果更好训练算法：计算

2016-11-21 23:54:16 294

原创决策树

决策树每次选择一个特征进行划分，信息依照该特征划分可以选择最大增益划分。划分后将该特征移除，一直到所有训练数据均已分类成功或所有特征均已经使用

2016-11-21 23:41:57 212

原创 K-近邻算法

K-近邻算法 K-近邻算法通过计算目标数据数据到训练数据地距离，根据距离的排序，选择排名靠前的几个训练数据类型，投票决定预测类型优点精度高，对异常值不敏感，无数据输入假定缺点计算复杂度较高，空间复杂度高适用范围数值型数据和标称型数据一般流程收集数据准备数据：距离计算所需数值，最好是结构化的数据格式分析数据训练算法：该步骤不适用于K-近邻算法测试算法：计算算法的错误率使用算法

2016-11-21 23:21:08 248

nima_apple的博客