自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 资源 (2)
  • 收藏
  • 关注

原创 使用docker-compose搭建达梦数据库主备集群

有可能standby或monitor节点没有能正常启动,这时就需要手动将primary节点的数据库tar文件和备份tar文件手动复制到没有能复制的standby或monitor节点的数据目录。这样就以root用户登陆到了dm_monitor的命令行窗口。另一个窗口用来停止和启动主数据库和备用数据库的运行容器,从而模仿实际情况下数据库的宕机和重启。我在DBeaver中分别配置了单服务器和主备服务集群的驱动模版,然后用它们又配置了主数据库和备用数据库各自的连接,以及涵盖主备数据库的集群的连接。

2024-06-10 19:46:01 1026 2

原创 Bash中Parameter Expansion的概念和实例

Table of Contents1. 带条件的参数扩展2. 子字符串参数扩展A. 偏移量确定子字符串B. 模式匹配确定子字符串3. 特殊字符开头的参数扩展4. 参数扩展中的替换5. 带操作符的参数扩展"$"字符引入了参数扩展(parameter expansion),命令替换(command substitution),或算术扩展(arithmetic expan...

2020-08-23 12:42:30 407

原创 Spark实用议题系列(05)--- 比较两个DataFrame的变化,获取相应的增/删/改子DataFrame

Table of Contents两个DataFrame的纯比较考虑加入和更新时间的DataFrame比较DataFrame的字段有null值的情况我们将DataFrame看作是由一行行(Row)的记录组成的。有时我们会比较两个有相同Schema的DataFrame,而获取一个DataFrame相对于另一DataFrame需要增/删/改的记录。也就是说,原始有一个老DataFram...

2019-09-11 09:10:52 1649

原创 【DB2】LISTAGG函数中元素的去重(DISTINCT)

Table of Contents1. 原始数据2. DB2 10.5及以前版本的实现3.DB2 11.1及以后版本的表示方法LISTAGG 函数用于将多个字符串元素,汇集成一个大的字符串,可以将这些字符串元素以某个分隔符隔开。而常常需要考虑在汇集成大的字符串时,去除那些重复的字符串元素。在DB2 11.1及之后的版本中,LISTAGG函数提供了使用DISTINCT关键值来支...

2019-07-31 00:33:11 10022

原创 在MacOS上成功编译Spark

我使用的是最新的MacOS版本:打开终端窗口,我使用的是iTerm。然后有两个重要的环境变量需要设置:1. JAVA_HOME~ export JAVA_HOME=$(/usr/libexec/java_home)~ java -versionjava version "1.8.0_181"Java(TM) SE Runtime Environment (build 1.8...

2019-07-18 10:16:11 342

原创 从Scala研习Java的TimeZone库

Table of Contents仅包含一个单词的ID包含多于两个单词的ID正好包含两个单词的ID一切缘起于学习Spark的日期时间函数。其中的to_utc_timestamp和from_utc_timestamp函数会涉及到TimeZone的参数。在Spark的源码中追溯,会发现TimeZone的参数会传到源文件:spark/sql/catalyst/src/main/scala...

2019-07-17 07:45:14 533

原创 Spark实用议题系列(04)--- 用于列操作的日期时间函数

Table of Contents操作日期的函数日期和时标的格式函数提取时间元素的函数Unix时间和时区的函数时间的窗函数因为Spark主要是对DataFrame的处理,所以有一个包org.apache.spark.sql.functions._包含了所有对DataFrame中的列操作,链接是:https://spark.apache.org/docs/2.4.3/api/...

2019-07-16 00:44:39 767

原创 在scala交互模式下使用第三方jar包

有时,我们需要在scala交互模式(REPL: read–eval–print loop)下试验第三方的jar包。而直接用scala命令进入的REPL只能使用默认的scala和java标准库。这时可以用sbt console的方式进入REPL模式。而关键点在于,你需要在运行sbt console的目录下定义build.sbt文件---就和工程项目中的build.sbt文件一样的。例如,定义bu...

2019-06-25 06:39:11 2151

原创 Spark实用议题系列(03)--- Spark SQL中的各种类型(Types)

根据Spark的源码(路径:spark/sql/catalyst/src/main/scala/org/apache/spark/sql/types/),我总结了如下图中的各种类型。这里对图中的各个构件说明:大框的标题是目录下各个文件的名字,例如AbstractDataType就是指文件AbstractDataType.scala。 大框中的圆弧小框就是各种类型(Types)的...

2019-06-17 01:11:47 2113

翻译 Java SE 8 的Date和Time

原文网址:Java SE 8 Date and Time原文作者:Ben Evans and Richard Warburton我们为什么需要新的Date和Time库?Java开发人员长期存在的困难一直是对普通开发人员的Date和Time用例的支持不充分。例如,现有的类(如java.util.Date和SimpleDateFormatter)不是线程安全的,导致用户可能出现并发问题...

2019-05-13 03:37:42 408

原创 Spark中DataFrame的列的三种表示方法

先定义参与Join的DataFrames:val EmployeeDF = Seq[(String, Integer)]( ("Rafferty", 31), ("Timothy", 32), ("Jones", 33), ("Heisenberg", 33), ("Robinson", 34), ("Smith", 34), ("Williams", null)...

2019-05-11 11:04:37 2082

原创 Spark实用议题系列(02)--- DataFrame的各种join总结和实例

Table of Contents1. 生成实例数据2. Type 2函数类型的各种实例2.1 Inner join的实例2.2 Full, Left 和 Right outer join的实例2.3 Left Semi和Left Anti join的实例2.4 小结3. Cross join的实例和Natural join的讨论4. Type 1函数类型的特色用法...

2019-05-08 15:05:22 7369 1

原创 Spark实用议题系列(01)--- 手动创建DataFrame的两个方法

Medium上的一篇文章介绍了三种方法手动创建DataFrame,链接是“Different approaches to manually create Spark DataFrames”。其中的第二种方法使用了createDataFrame()函数,而实际上是从RDD转换到DataFrame。个人感觉这种方法对于全面基于Spark SQL的实现不太合适。 而第三种方法的CreateDF()...

2019-05-05 23:25:14 771 1

翻译 STL介绍

STL(Standard Template Library)是一个容器类、算法和迭代器(container classes, algorithms和iterators)的C++库;其提供了许多计算机科学的基础算法和数据结构。

2017-08-06 18:41:35 701

原创 Boost安装和卸载(2013-4-3更新)

参考我原来总结的老版本安装小结:点击打开链接。现在总结当前环境下,安装新版本boost的过程---------------------------------------------------系统环境:1. Ubuntu 12.04.1 LTS,32-bit2. boost c++ 1.53.0在Ubuntu环境下安装时遇到过缺少头文件的情况,是因为一些开发包没有安装。执

2013-04-04 07:27:36 9475 1

翻译 双因子方差分析:R中的双因子ANOVA

Source: http://www.r-bloggers.com/two-way-analysis-of-variance-two-way-anova-in-r/ 单因子方差分析是验证多个群组均值是否相等的非常有用的技术。但一些更复杂的问题这个技术就无能为力了。例如,有时需要考虑变异的两个因子来决定群组之间的平均依赖于群组分类(“zone”),还是第二级需考虑的变量(“block”)。在

2012-06-17 19:30:59 8656 3

翻译 列联表和定性变量之间相关性的研究:Pearson的chi-squred test

Source: http://www.r-bloggers.com/contingency-table-and-the-study-of-the-correlation-between-qualitative-variables-pearsons-chi-squared-test/ 如果你有定性的变量(qualitative variable),可通过研究列联表(contingency t

2012-06-17 18:42:46 3937

翻译 相关性研究的非参数方法:Spearman的秩相关系数和Kendall tau秩相关系数

Source: http://www.r-bloggers.com/non-parametric-methods-for-the-study-of-the-correlation-spearmans-rank-correlation-coefficient-and-kendall-tau-rank-correlation-coefficient/ 在前面的帖子中我们看到,如何用Pearso

2012-06-17 18:08:17 9099

翻译 相关性研究的参数方法:Pearson r-test

Source: http://www.r-bloggers.com/parametric-method-for-the-study-of-the-correlation-the-pearson-r-test/ 假如你想要研究两个数据集之间是否有相关性。我们需要计算Pearson product-moment correlation coefficient,这是一个在两个变量X和Y之间的相关

2012-06-17 17:49:19 4710

翻译 Kruskal-Wallis单因子方差分析

Source: http://www.r-bloggers.com/kruskal-wallis-one-way-analysis-of-variance/ 如果你在进行多个群组之间比较时,因为群组不满足正态分布而不能使用ANOVA多比较,那么你可以使用Kruskal-Wallis检验。该检验类似于前面两个样本的Wilcox检验。假设你想看看以下4个数值集合的均值是否统计相似:Gr

2012-06-17 16:12:09 15578

翻译 用于多个比较的方差分析(ANOVA)

Source: http://www.r-bloggers.com/analysis-of-variance-anova-for-multiple-comparisons/ 用于多个比较的方差分析(ANOVA:Analysis of variance)ANOVA模型能用于比较多个群组之间的均值,这里使用了参数(parametric)的方法,也就是假设这些群组符合Gaussian分布。以

2012-06-17 10:31:12 13465

翻译 两个比例的比较:参数方法(Z-test)和非参数方法(chi-square test)

Source: http://www.r-bloggers.com/comparison-of-two-proportions-parametric-z-test-and-non-parametric-chi-squared-methods/ 考虑以下问题的例子。赌博公司所有人想验证用户是否在欺诈。为此他想比较某个玩家的成功次数和某个雇员的成功次数,从而确定其是否欺骗。在一个月时间内,玩家

2012-06-14 14:48:39 8501

翻译 Wilcoxon符号秩检验/signed rank test

Source: http://www.r-bloggers.com/wilcoxon-signed-rank-test/ 非参数的统计假设检验,用于比较两个配对样本之间的均值。一个城市的市长想要看看在关闭一些街道对汽车的通行后污染层度是否有所减少。于是每60分钟就测量一次污染率(8am ~ 22pm:总共15次测量),分别在交通开放的一天和交通关闭的一天各测量一组,以下是空气污染的值:

2012-06-13 05:50:25 27573 2

翻译 Wilcoxon-Mann-Whitney秩和检验/rank sum test(或test U)

Source: http://www.r-bloggers.com/wilcoxon-mann-whitney-rank-sum-test-or-test-u/ 比较两个独立样本群组的平均值,这里不需要假设总体为Gaussian类型分布;这也称作Mann-Whitney U-test你想要看看两个足球队在一年进球数均值是否一样。以下为每个队在一年6场比赛中的进球数:Team A:

2012-06-12 21:31:55 38185 1

翻译 配对的Student's t-test

Source: http://www.r-bloggers.com/paired-students-t-test/两个配对样本集的均值比较,从两个方差未知的总体中抽取。一个学校竞技队请了新的教员,想通过比较10个运动员在100米跑步中的平均时间来测试新建议的训练类型的有效性。以下数据是每个运动员在训练前后的时间,以秒计:Before training: 12.9, 13.5, 12.8

2012-06-12 13:58:51 4851 1

翻译 两个样本的Student's t-test (2)

Source: http://www.r-bloggers.com/two-sample-students-t-test-2/两个独立群组平均的比较,这里的两个群组从两个方差未知且样本方差不同质的总体抽取。我们想比较两个个体群组的身高,单位inches。这里是测量数据:A: 175, 168, 168, 190, 156, 181, 182, 175, 174, 179B: 120

2012-06-12 01:26:01 9106

翻译 两个样本的Student's t-test (1)

Source: http://www.r-bloggers.com/two-sample-students-t-test-1/t-Test用来比较两个群组的均值,这里假设两个样本组都随机、独立,并且来自方差未知但相等的正态分布的总体。这里我们使用和《两个样本的Z-test》中一样的数据,如下:A: 175, 168, 168, 190, 156, 181, 182, 175, 174,

2012-06-12 00:38:02 3629

翻译 两个样本的Z-test

Source: http://www.r-bloggers.com/two-sample-z-test/比较两个独立样本组的均值,这两个样本组取自已知方差的两个总体。这里比较两个组的平均高度。第一组(A)包括意大利的个体(意大利总体的方差是5);第二组(B)取自德国的个体(德国总体的方差是8.5)。数据如下:A: 175, 168, 168, 190, 156, 181, 182, 1

2012-06-11 07:41:44 5879 1

翻译 一个样本的Student's t-test

Source:  http://www.r-bloggers.com/one-sample-students-t-test/ 当总体方差不知道时,将样本平均与一个已知值比较。在10个主体中进行了智力测试,并获得相应结果。总体的平均结果为75。你想要检测样本均值与总体平均是否显著相似(当显著水平为95%时),假设总体的方差不知道。65, 78, 88, 55, 48, 95, 6

2012-06-11 01:43:07 1732

翻译 一个样本的Z-test

Source: http://www.r-bloggers.com/one-sample-z-test/ 在知道总体平均和标准差时的样本平均的比较假设有10个自愿者进行了智力测试,这里有获得的结果。在同样测试的总体平均为75。你希望检测在样本和总体平均之间是否有统计上的显著差异(显著水平为95%),这里假设样本方差已知等于18.65, 78, 88, 55, 48, 95, 66,

2012-06-10 21:54:51 3588

原创 eclipse的美化

总觉得在Ubuntu下eclipse工作台中显示的行数没有Windows中多,这样会影响代码观察的范围和习惯,因此参考一下博文来改进。http://blog.csdn.net/zpf1217/archive/2010/08/25/5836263.aspx这需要修改~/.gtkrc-2.0文件,如果没有就生成一个新的文件,修改和增加的内容为:style "gtkcompact" {font_name="Sans 9"GtkButton::default_border={0,0,0,0}GtkButton::d

2011-04-20 15:43:00 997

原创 收集的IBM软件图标

information managementlotusrationaltivoliwebsphere

2010-09-15 07:19:00 942

原创 关联规则挖掘的相关概念

一、关联规则的概念关联规则(association rules)就是从frequent patterns中发现的规律。而frequent patterns就是在数据集中频繁出现的patterns(例如,itemsets, subsequences, substructures)。在实际的association rules挖掘中,有以下几个基本定义:1. session:有1个unique

2010-07-31 09:19:00 1484

原创 数据挖掘的类型定义

一、从数据分析(data analysis)讨论预测问题(prediction problems)的两个主要类型是分类(classification)和数值预测(numeric prediction)。 这些问题都会涉及到训练数据集(training dataset)。从数据库的角度看,数据集中的每个元素称作训练元组(training tuple);而在机器学习中,这些元素则称为训练样

2010-07-22 06:58:00 1040

原创 数据分析和挖掘性能的一些概念

1. 混淆矩阵和统计量用缩写分别表示图中各个单元格中表示的个体数量,TP: true positivesFP: false positivesFN: false negativesTN: true negatives另外,还有表示实际类别的个体数量,P: positive samples = TP+FNN: negative samples = FP+TN最

2010-07-18 13:29:00 2888 1

原创 区组设计

最近在看R-language的资料,其中有区组设计(block design)的例子,查了好些资料才搞懂。这里分享其定义和性质。例子 任何的数学问题,都是从实际的应用中提炼而来。因而,我们介绍所谓的定义和概念,最好的切入点就是实例了。 例1:(Kirkman女生问题)15名女生,每天3人一组外出散步。教师需要安排一种分组方案,使得一周7天中,任意两个女生恰分在同一组一次

2010-05-08 16:40:00 4606 1

原创 云机会

------------翻译自Ericsson的《The Could Opportunity》(Technology Update: Issue No. 3/2009)云计算解释 云计算不仅仅只是炒作。实际上,整个IT工业界都在围绕着云计算重新定位其价值主张,因为这是在现有网络世界中包装、部署和运行各种应用的最好做法。总的说来,这有一个非常宽泛的内容,因此难以为云计算定义一个明确的市场

2010-02-05 07:06:00 2141 13

原创 mysql忘记root密码后重设

一些基本操作:1. 关闭mysql服务: #mysqladmin -u root shutdown2. 开启mysql服务: #mysqld &忘记root密码后重设:1. 关闭mysql服务:2. 以跳过权限表的方式开启mysql服务: #mysqld --skip-grant-table &3. 进入mysql环境 #mysql4. 在mysql环境

2009-10-20 06:36:00 511

原创 Windows下安装GGobi和rggobi

GGobi是一个能够显示多变量统计图形的软件,同时还能够动态地展示变量之间的关系。这里介绍如何在Windows下安装GGobi,以及如何在R中也能够使用。一、安装GGobi参考其官方网站:http://www.ggobi.org/downloads/1. 到http://downloads.sourceforge.net/gladewin32/gtk-2.12.9-win32-2.ex

2009-08-13 05:55:00 5063 2

原创 域的定义和域公理

具有加法(addition)和乘法(multiplication)运算,且这两种运算满足"域公理(field axioms)"(A),(M),(D)的集合,称作域(field),常用符号F表示。其中:属性名称Name加法公理(A)

2009-08-08 09:15:00 5664 1

MIT Technology Review Magazine, 2013 Mar -- Apr

MIT TRM, 经典的科技杂志,引领当代科技潮流

2013-05-28

MIT Technology Review Magazine 2013 May-June

MIT TRM,非常经典的科技杂志,引领当代的科技前沿

2013-05-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除