mlj365-CSDN博客

转载常见的机器学习&数据挖掘知识点

常见的机器学习&数据挖掘知识点转载请说明出处Basis(基础)：SSE(Sum of Squared Error, 平方误差和)SAE(Sum of Absolute Error, 绝对误差和)SRE(Sum of Relative Error, 相对误差和)MSE(Mean Squared Error, 均方误差)RMSE(Root Mean Squared Error, 均方根误差)RR...

2020-08-07 08:29:02 701

转载 2020-08-07

在行业设备大数据平台建设中，势必要用到大数据技术，而大数据技术中，机器学习与数据挖掘算法是重要的一环，我们通过这些算法与模型对设备的故障进行监控与预测，对设备技改需求进行预测，对设备采购需求进行预测以及创建各种模型与算法设备标签。下面我们对一些常用的算法与模型进行简要介绍。在进行数据挖掘时，首先要进行商业理解，即我们需要达到什么目的，解决什么问题；其次需要进行数据理解，我们需要哪些数据以及需要什么样的数据；接着需要进行数据准备，即进行相关数据采集与读取，并进行数据预处理；继而建立相关模型，...

2020-08-07 08:25:11 707

转载 java后台封装echarts

早些时候（2015年6月）用到了Echarts，觉得比之前用的funshioncharts好用太多！可是拼装数据到前台显示的时候，有点费时费力，于是对Echarts在后台做了封装。具体做法了抽象出众图类、零件之上用零件组装成组件（坐标轴、标题、提示、图例、值域漫游、工具箱、数据项之类），组件之上抽象出图类（柱状图、折线图、饼图、仪表盘、地图、漏斗图之...

2020-07-17 17:19:02 526

转载数据治理工具

Data Governance Tools - Evaluation Criteria, Big Data Governance,内容：前言第一部分：导论： &...

2020-07-08 14:51:02 1390

转载 Python:从数据处理到人工智能

数据表示——数据清洗——数据统计——数据可视化——数据挖掘——人工智能数据表示：采用合适方式用程序表达数据数据清洗：数据归一化、数据转换、异常值处理数据统计：数据的概要理解、数量、分布、中位数等数据可视化：直观展示数据内涵的方式数据挖掘：从数据分析获得知识，产生数据外的价值人工智能：数据/语言/图像/视觉等方面深度分析与决策python库之数据分析Numpy：表达n维数据的最基础库python数据分析及科学计算的基础库，支持pandas提供矩阵运算、广播函数、线性代数等Pan.

2020-07-05 18:57:57 298

转载数据平台调度系统

对于规模以上的应用来说，调度系统已经是必不可少的组成部分，尤其在基于数据分析的后台应用大量增长的今天，健壮的调度任务管理已经是非常重要的一环。1. 调度问题的由来调度问题是怎么来的当你的网站是个简单的blog，而且并不需要跟外部交互的时候，你大概不需要调度任务，因为此时网站需要处理的任务仅限于即时交互，即用户想使用一个功能，你就立即给他就是了，如同你在简书上写一篇文章，一点保存，这篇文章立即就保存到网站的后台服务器中去了，这也是互联网刚出现时候的最早的应用模式。之后因为网站发展的不错，用户多

2020-06-29 14:17:17 1958 3

转载深度解析 | 基于DAG的分布式任务调度平台：Maat

阿里妹导读：搜索中台建设过程中，单个系统不再能满足复杂业务的需求，更多时候需要多个子系统互相协作，异步地按照指定流程完成一项特定的功能。例如一个应用的上线流程依次需要调用配置同步模块、监控模块、资源更新模块、冒烟模块、引擎创建模块，流程的运行中又有分支判断、上下文传递、失败重试等需求。基于这种需求，Maat将各类流程化的任务集中管理，各个任务节点以分布式的方式运行在不同容器内，保证流程高效稳定地运行。背景什么是Maat？Maat是一个基于开源项目Airflow的流程调度系统，它支持用户自定义...

2020-06-29 14:15:00 941

转载为运营分析而设计的数据系统

介绍一个有趣的数据系统Operational Analytics Processing，OPAP系统。不同于传统的OLTP和OLAP，它更注重于实时数据的即时分析。下面这篇文章加了我自己的一些理解和实践经验，原文请参考：https://www.rockset.com/blog/operational-analytics-what-every-software-engineer-should-know/OPAP系统特征OPAP系统构建了一个实时查询的系统可以使用者立马能够查询到实时数据。举个简单的例子，当用户

2020-06-23 14:15:06 445

转载闲聊调度系统 Apache Airflow

开始之前Apache Airflow 是一个由开源社区维护的，专职于调度和监控工作流的 Apache 项目，于2014年10月由 Airbnb 开源，2019年1月从 Apache 基金会毕业，成为新的 Apache 顶级项目。Apache Airflow（以下简称 Airfolw ）的概念相对比较复杂，比较核心的有 DAG 、Operators 、Tasks 三个概念。DAG 表示的是由很多个 Task 组成有向无环图，可以理解为 DAG 里面的一个节点，Task 的由 Operators 具体执行，Op

2020-06-23 14:07:09 757

转载工作流任务调度系统：Apache DolphinScheduler

目录1 概述1.1 背景1.2 特点2 系统架构2.1 名词解释2.2 架构3 部署3.1 后端部署3.1.1 基础软件安装3.1.2 创建部署用户3.1.3 下载并解压3.1.4 针对escheduler用户ssh免密配置3.1.5 数据库初始化3.1.6 修改部署目录权限及运行参数3.1.7 执行脚本一键部署3.1.8 后端服务进程的说明3.1.9 dolphinscheduler后端服务启停3.2 前端部署3.2.1 下载并解压3.2..

2020-06-23 13:47:33 3045

转载 Hadoop - 任务调度系统比较

1.概述　　在Hadoop应用，随着业务指标的迭代，而使其日趋复杂化的时候，管理Hadoop的相关应用会变成一件头疼的事情，如：作业的依赖调度，任务的运行情况的监控，异常问题的排查等，这些问题会是的我们日常的工作变得复杂。那么，在没有条件和精力去开发一套调度系统的情况下，我们去选择一款第三方开源的调度系统，来尽量减轻和降低我们日常工作的复杂度，也是极好的。今天，笔者给大家比较几种常见的调度系统，供大家去选择。2.内容2.1 Oozie　　Oozie目前是托管在Apache基金会的，开源。在...

2020-06-23 10:04:09 466

转载管理ETL的处理过程需要哪些子系统（从那几个角度入手）

ETL最终需要保证整个处理过程的可靠性、可用性、可管理性。可靠性：ETL的处理过程必须始终运行。他们必须运行以提供及时的数据，这些数据的的所有细节都是值得信任的。可用性：数据仓库必须满足其承诺的服务级别可管理型：成功的数据仓库是永远无法实现的。将随着业务的发展而不断发展变化。ETL过程需要不断改进。image.png子系统二十二：任务调度器所有企业数据仓库应该具有一个健壮的调度器。整个ETL过程在可能范围内应该是可管理的。调度器不仅仅需要按照计划分派任务。调度器还需要识别和控制ET

2020-06-23 09:40:20 383

转载 Anaconda的安装和详细介绍（带图文）

Anacond的介绍Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包，Anaconda 的下载文件比较大（约 531 MB），如果只需要某些包，或者需要节省带宽或存储空间，也可以使用Miniconda这个较小的发行版（仅包含conda和 Python）。Conda是一个开源的包、环境管理器，可以用于在同一个机器上安装不同版本的软件包及其依赖，并能够在不同的环境之间切换Anaconda包括Co...

2020-06-21 22:24:08 1418

转载 Python——IDLE的安装步骤

首先，IDLE是一款免费的软件，可以直接去python的官网下载，在官网找到相应自己电脑的配置的一类之后选择“Download Windows x86-64 ex...

2020-06-21 22:19:51 1250

转载大数据平台可视化BI工具，通幽洞微，呕血总结

BI唤醒沉睡的数据大数据时代商业智能（BI）和数据可视化诉求更为强烈，淘宝大屏更是风靡全球！数据可视化是大数据『最后一公里』，BI唤醒沉睡的数据。百家争鸣，百花齐放传统型BI力求大而全的统一综合型报表和分析平台，侧重传统式报表开发，俨然一把屠龙刀。现互联网公司快速迭代的业务发展，需要的却是倚天剑，促使自助式BI和敏捷BI得以迅速发展。时代召唤，传统BI巨头也逐渐向自助式BI和云BI转型。一时间，数据可视化和BI呈现出"百家争鸣，百花齐放"的盛况！01 开源BI工具SupersetAirbnb开源

2020-06-16 18:16:14 1456

转载 Taro + dva 使用小结（搭建配置过程）

最近写一个微信小程序的项目，由于是协同开发，前期的搭建工作由另一个妹子完成，现在项目阶段一完成了，为了备忘回顾，做一个阶段性小结。在写小程序之前经过对比最后采用了京东凹凸实验室开发的类react框架Taro，用框架的好处就不多说了，比直接写原生小程序方便太多。数据管理采用的是封装了redux的dva框架，如果没有学过的同学可以去看看文档。先声明篇幅比较长，如果你需要，还请看完，相信一定有帮助，不想看的同学文末放了GitHub地址，自己去下。附上文档链接：taro文档：https://nervjs..

2020-06-15 15:08:51 1601 1

转载什么是自动化运维？自动化运维必备技能有哪些？

万丈高楼平地起，高楼稳不稳取决于地基是否扎实。基础数据便是运维管理这座高楼的地基。首先介绍一下我们在运维管理中所涉及到的基础数据有哪一些。请看下图：基础数据大致分为CMDB、日志、生产DB、知识库四个模块。一、基础数据概况CMDB中文是配置管理数据库，存储与管理企业IT架构中设备的各种配置信息，与未来的IT运维管理标准化和流程化紧密关联，并且支持流程的运转。运维管理平台创建初期或初版中的CMDB更多是偏向IT资产管理，我们在这里定义的IT资产管理，暂时抛除公司个人使用的普通PC机。日志主要存储.

2020-06-14 17:15:39 2727

转载大数据学习笔记之azkaban（一）：azkaban

文章目录一概述1.1为什么需要工作流调度系统1.2 常见工作流调度系统1.3 各种调度工具特性对比1.4 Azkaban与Oozie对比二 Azkaban介绍三...

2020-06-13 09:11:50 1601

转载 Linux配置定时执行指定脚本

在Linux下，有时需要定时执行一些任务，如定时检测系统资源信息、定时备份数据库等操作，可以借助crontab命令，其基本命令格式如下: * * * * * {命令} 第一个*表示每xx(1-59)分钟，每分钟用*或*/1表...

2020-06-08 18:07:19 506

转载数仓可视化，低代码开发平台

概述在数据仓库建设中，特别是在多个开发人员的过程中，经常会遇到以下问题： &n...

2020-06-08 15:08:43 515

转载命名标准管理

概述数据建模的过程中，会对几百个甚至上千个字段进行命名，特别在一个团队中，经常会遇到这些问题： &...

2020-06-08 15:04:29 196

转载 python实现数据仓库的自动化开发

概述前面讲了基于元数据驱动数据仓库的开发，使数据仓库自动化，可视化。这篇讲用python来实现数仓的自动化开发 ,前提是你已经完成了需求调研和数据剖析，开始进行数据建模。自动化程序的流程如下：由于没有开发前端建模页面，需要把ods、edw、dm层建模元数据导入到元数据库里。把每层的转换查询脚本导入元数据库。把源库表的元数据信息通过python加载到元数据库里。跟据建表模板自动生成每层的DDL语句。根据程序模板自动生成每层的加载脚本。 &nbsp.

2020-06-08 14:59:03 920

转载 kettle抽取——多平台汇总数据仓库

jdk：1.7（注意:经多次实验，6.0必须用jdk1.7，5.x的可以使用1.6jdk）系统：64位 windows7 旗舰版配置：内存（8G），处理器（i5-4590 CPU 3.30GＨz）一、需求简介1.多个平台数据汇总到数据仓库，最后的所有表在数据仓库是完备的注意点： a.平台1和平台2各有1200和1100张表，其中1000张表在两个平台都有，另外平台1的200张表和平台2的100张表示各自拥有的，那么数据仓库就会有1300张表，其中1000张共有表抽取到数据.

2020-06-05 09:35:16 583

转载 kettle向MySQL推数据时报错

背景：官网后台（MySQL）需要从CRM系统（Oracle）抽一张表，然后我使用ETL工具kettle来抽取数据。问题：200W左右的数据抽到150W左右的时候突然抛出了一个错误，你说气不气：【------2019-12-11更新一下问题： &...

2020-06-05 09:33:35 567

转载 kettle-创建资源库

1.资源库的介绍 kettle资源库是用来保存转换任务的，用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以使多用户共享转换任务，转换任务在资源库中是以文件夹形式分组管理的，用户可以自定义文件夹名称。 ...

2020-06-02 10:20:38 592

转载 KETTLE整架构、整库迁移（如何一次抽取200张表）

KETTLE整架构、整库迁移作业流程KETTLE模板在文章末尾，建议大家先下载,导入模板后在看文章内容！！！文章目录一、获取某个数据库，架构所有表名二、数据迁移三、案例本文使用场景：需要一次性抽取某个架构中的数据，如果迁移数据库可以不用看本篇文章。下面作业的前提是我们的目标库已经建好了表结构，本文中目标表和源表的表名是一样的。说说我工作中使用的场景：该数据为一次性数据，数据源为sqlserver的bak文件包、共210张表，目标库为oracle数据库。解决方法：将数据还原...

2020-06-01 23:05:41 1190

转载 kettle7.0下实现数据库整体迁移

一、采用软件自带方式1.新建一个job，创建两个DB连接：source、target（源数据库和目标数据库连接），在菜单中找到【复制多表向导】，点击进行相关操作：2.选择源数据库和目标数据库3.选择所需迁移的表4.编辑生成的job文件名：qy.kjb，和文件目录，编辑好后【Finish】5.运行qy.kjb，可在test2数据库中看到成功生成迁移来的表。二、自定义数...

2020-06-01 16:10:25 377

转载用Kettle的一套流程完成对整个数据库迁移

需求：1.你是否遇到了需要将mysql数据库中的所有表与数据迁移到Oracle。2.你是否还在使用kettle重复的画着：表输入-表输出、创建表，而烦恼。下面为你实现了一套通用的数据库迁移流程。技术引导：实现之初，在kettle提供的例子中找到了一个类似的（samples\jobs\process al...

2020-06-01 13:51:16 595 2

转载 Kettle批量操作流程使用（二）---多个数据源单表批量操作

上一篇博客介绍了本次操作的一些需求和预研思路，并且对第一种方式做了测试，现在将对第二种方式做测试。虽然在网上有不少关于动态链接库的文章，但是不少是操作kettle文件，或者通过脚本去按照一定规则生成变量。好像并不是很适合我自己的任务思路，因此在借鉴他们的思路的基础上，通过多次测试，终于走通了动态链接数据...

2020-05-30 21:32:00 1369

转载 Kettle批量操作流程使用（一）---单个数据源多表批量操作

最近在工作上用到了kettle，目前这个开源的ETl工具相对来说比较火，用做数据抽取清洗工作很方便也很快捷。当然也还有不少的问题，比如使用过程中会发生闪退（测试了几个版本都存在），还有建好的Job和Transfer保存文件，然后再次打开的时候都是空白。抛开这些问题暂时不说，试...

2020-05-30 21:25:44 1374

转载 kettle8调度监控平台（kettle-scheduler）开源

背景Kettle作为用户规模最多的开源ETL工具，强大简洁的功能深受广大ETL从业者的欢迎。但kettle本身的调度监控功能却非常弱。Pentaho官方都建议采用crontab(Unix平台)和计划任务(Windows平台)来完成调度功能。所以大家在实施kettle作业调度功能的时候，通常采用以下几种...

2020-05-30 16:59:00 2208 2

转载 kettle删除指定数据

kettl进行无效数据的删除需求来源需求是这样产生的，因为我要对一张生产库中的表进行增量抽取，抽取方法是通过表中的modify字段来进行增量的，每天根据这个字段获取前一天的数据。但是这样做存在一个问题，就是如果此表发生了记录的物理删除，那么我是无法感知的，所以同步后的表中存在大量已经被删除的无效数据，使数据与源表不一致，所以，需要一种方法来删除这部分不一致的数据。设计思路如果要解决以上问题，则需要一种方式来获取...

2020-05-30 16:50:30 5324

转载使用kettle过程中出现unable to create a Database Connection异常

unable to create a Database Connection异常问题与解决在使用启动kettle过程中出现Kettle / Data Integration - unable to create a Database Connection (XulException: java.lang.reflect.InvocationTargetException)异常，经过一两个小时的排查，发现是版本不对...

2020-05-30 16:40:59 1983

转载 Kettle集群介绍及（windows、linux）环境搭建

一、 Kettle集群概述1) Kettle集群简介集群技术可以用来水平扩展转换，使得他们能够同时运行在多台服务器上。它将转换的工作量均分到不同的服务器上。这一部分，我们将介绍怎样配置和执行一个转换，让其运行在多台机器上...

2020-05-30 16:33:43 571

转载 kettle之日志有关方面的总结

job1.job日志job日志有三种：作业日志表：整体的记录作业项日志表：每个项目的日志日志通道日志表：第一次配置，因为数据库中还没有这个表，需要手动点击sql创建表，然后执行sql。日志模式：oracle等数据库种有模式概念，mysql不需要填写记录时间间隔：运行的时候多久写一次，在作...

2020-05-30 16:29:44 2205

转载 kettle见解文章

文章一：ETL和Kettle简介ETL即数据抽取（Extract）、转换（Transform）、装载（Load）的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有：滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化等。即便...

2020-05-30 15:57:36 681

转载 Kettle插件开发流程

最近正好做了有关Kettle中插件开发的工作，对Kettle插件的源码进行了一定的研究，并开发了自定义的插件，在此有些感悟，记录下来。一 Kettle插件概述Kettle的开发体系是基于插件的，平台本身提供了接口，开发者按照相关规范就可以开发出相应的插件添加到Kettle中使用，感觉这个体系设计思路很不错，非常有利于Kettle后续的扩展。初次接触Kettle插件开发可以参考GitHub上有关插件模板DummyPlugin的源码，通过对源码的分析，发现Kettle插件开发的流程还是比较简单的，以Du.

2020-05-30 11:49:20 1292

转载手把手教你使用Kettle JAVA API进行数据抽取

Kettle作为一款优秀的数据抽取程序，因为高效稳定的性能，一直被广大使用者所喜爱，并且还在国内广受好评。因为其本身使用纯JAVA编写，所以其JAVA API使用起来自然也是非常简便。虽然其本身自带的组件已经非常好用，并且能够满足丰富的场景。但可能有些场景下，我们可能需要通过其他的方式来实现，本篇我们将介绍Kettle的JAVA API的使用。一、环境搭建Pentaho官方仓库：https://nexus.pentaho.org/content/groups/omni核心jar包的pom.xml配..

2020-05-29 17:00:58 1576 1

转载在阿里云上搭建自己的git服务器

这篇文章我就来介绍一下如何在一台全裸的阿里云主机上搭建自己的git服务器。1. 安装git首先安装git，一般而言，现在的服务器已经内置了git安装包，我们只需要执行简单的安装命令即可安装。比如：$ yum install git # centos$ apt-get install git # ubuntu上面是直接用root登陆服务器进行操作，也是为了演示方便。git和mysql不一样，mysql在安装时，得安装mysql-server，即mysql服务器，git是分布式的，每一个安...

2020-05-26 23:19:16 420

转载在阿里云服务器上搭建svn服务器

github: https://my.oschina.net/u/2898970/blog/1551693每次在下班把代码拷回家或者以其他网络方式发送项目都感觉十分麻烦，所以最近在阿里云的云服务器上搭建了svn服务器，方便拉取项目，而且能通过版本控制，下面是搭建的步骤: 1.下载对应的服务端与客户端软件服务器端VISUALSVN SERVER 3.3.1 下载...

2020-05-26 23:08:22 512

空空如也

空空如也