数据挖掘
CrazyL-
记录学习点点滴滴,一次共勉
展开
-
kettle日志参数设置
内存中的日志太多,可能会引起outofmemory的错误 spoon运行时设置日志缓存大小 “选项”对话框里设置 日志窗口的最大行数 内存中保留日志时长 日志视图的最大行数 kettle.properties设置 KETTLE_MAX_LOG_SIZE_IN_LINE变量 KETTLE_MAX_LOG_TIMEOUT_IN_MINUTES变量转换有四个日志表 编辑–>设置原创 2016-08-17 20:40:15 · 7954 阅读 · 0 评论 -
kettle命令行运行
执行kitchen /rep:repository /user:admin /pass:admin /job:myjob /dir:/pan同理原创 2016-08-17 20:03:34 · 1625 阅读 · 0 评论 -
kettle远程和集群执行
设置子服务器,默认用户名密码为cluster 密码保存在pwd目录下 启动carte服务,端口号自定义 集群执行 右键步骤,选择集群原创 2016-08-17 17:21:59 · 8711 阅读 · 0 评论 -
kettle variables
变量用${}括起来,或者%%变量%%原创 2016-08-16 20:28:43 · 413 阅读 · 0 评论 -
kettle Named Parameters
有一个默认值,也可以在执行转换时指定值sh pan.sh -file:/pentaho/file.ktr -param:FILE_PATH=/opt/inputpan是用来执行ktr的command line原创 2016-08-16 20:22:07 · 396 阅读 · 0 评论 -
kettle core tools
Spoon 一个用来快速设计和管理复复杂ETL工作的图形用户界面 K icthen 运行job的命令行工具 Pan 运行transformation的命令行工具 Carter 远程运行job和transformation的轻量级服务器原创 2016-08-16 20:12:48 · 547 阅读 · 0 评论 -
ubuntu安装kettle并通过xmanager进行开发
下载kettle最新版 wget http://sourceforge.net/projects/pentaho/files/Data%20Integration/6.1/pdi-ce-6.1.0.1-196.zipwindows上下载xmanager并安装 在Windows上使用XShell建立连接时,设置连接属性,在 SSH –>tunneling 选项下勾选Forward X11 conne原创 2016-08-16 19:47:46 · 2180 阅读 · 0 评论 -
kettle读文件
读一个简单的txt文件 输入——》文本文件输入 新建文本文件test.txt内容为: “lastname”,”firstname”,”country”,”birthyear” “Larsson”,”Stieg”,”Swedish”,1954 “King”,”Stephen”,”American”,1947 “Hiaasen”,”Carl “,”American”,1953 “Han翻译 2016-06-28 21:03:39 · 5178 阅读 · 2 评论 -
kettle数据库应用
获取数据 新建转换 核心对象——>输入——>表输入 可以对获取的SQL语句进行必要的操作。使用参数从数据库获取数据 Data Grid设置参数 使用问号作为变量占位符,从步骤插入数据选择上一步传入的变量,data grid有多行数据时选择执行每一行可以获取到一个数据集 打印的日志如下: 运行时通过查询语句从数据库获取数据 从打印的日志可以看到输原创 2016-06-23 22:53:48 · 437 阅读 · 0 评论 -
kettle数据库连接使用变量
Host Name不适用固定的名字,如localhost,而是使用变量。 如定义一个变量HOST_NAME,Host Name可以填写${HOST_NAME}或者%%HOST_NAME%%。这样在进行迁移的时候,可以通过改变变量的值实现连接的修改。翻译 2016-06-23 15:06:37 · 4206 阅读 · 0 评论 -
clementine介绍及使用
使用的数据挖掘方法论-CPISP-DM 图形化的操作环境,提高了易用性、降低了入门要求和学习时间 率先引入可视化建模思想和数据展现概念 client/server结构提高了处理大数据量的能力 data preparation的优越功能 多种(telecom、fraud、crm)clementine应用模板原创 2016-09-05 23:12:57 · 2944 阅读 · 0 评论 -
数据的相关性分析
相关分析:是研究两个或两个以上变量之间相关程度大小以及用 一定函数表达现象相关关系的的方法相关分析的作用: 1.确定现象之间有有无关系 2.确定相关关系的密切程度和方向相关关系的种类: 按相关关系的程度:不相关、完全相关、不完全相关 按相关关系方向:正相关、负相关相关关系的判断 1.一般判断(定性分析) 2.散点图相关系数(r) |r|表明两变量之间的相关程度斯皮尔曼等级相关系数原创 2016-09-05 22:48:13 · 4861 阅读 · 0 评论 -
数据分析的方法论和方法
方法论指导方法,思考方法的方法 PEST,political、economic、social、technological 政治法律、经经济、社会、技术4P,product、price、place、promotion 立足市场分析,理解高价值用户感知,全面开展营销创新,满足高价值用户核心需求,增强用户对公司业务的依赖和忠诚 产品,针对用户的需求开发和推荐,满足用户关键利益 价格,理解用户价格原创 2016-09-05 22:37:41 · 1327 阅读 · 0 评论 -
数据分析基础
所有的分析要从结果出发,没有结论的数字罗列并不是分析 结果:发现问题和解决问题 数据分析建立在业务模型的基础上 数据分析是基于数据严谨的分析过程数据分析是使用统计方法对收集的大量数据进行分析、理解,达到业务分析的目的 数据分析是为了获取有用的信息和结论而对数据进行分析和研究的过程数据分析需要用业务的思维去使用技术 摒弃唯技术论 业务思维很重要 简洁的模型普适性更好数据分析有时候是一门艺原创 2016-09-02 21:33:16 · 1149 阅读 · 0 评论 -
数据挖掘之分类
分类: 分类是这样的过程:使用类标签已知的样本建立一个分类函数或分类模型(也常常称作分类器),应用分类模型,能把数据库中的类标签未知的数据进行归类分类在数据挖掘中是一项重要的任务 分类是过程,预测是目的分类算法 决策树 逻辑回归 神经网络 支持向量机 贝叶斯分类 KNN 随机深林典型应用: 流失预测 精确营销 客户获取 个性偏好 信用分析 欺诈预警分类—决策树 决策树原创 2016-09-02 21:05:21 · 1808 阅读 · 0 评论