LINUX通过python连接ACCESS(.mdb和.accdb文件)数据库 前言因为ACCESS主要还是微软的那一套,所以WIN平台的连接方式不再赘述,网上方案很多。LINUX上的连接,主要还是分为ODBC和JDBCODBC方案包安装linux需安装的包:mdbtools, unixODBC, libmdbodbcpython需安装的包:pyodbc或pypyodbc配置配置/etc/odbcinst.ini[MDBToolsODBC]Descript...
Container killed on request. Exit code is 143 背景只是一条INSERT语句插入一条数据,然后就报错报错如下Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask分析之前写过这个错误,这只是个表象错误,具体问题还是需要看日志分析。Z正常日志里没有报错,在这个任务的一个POST日志文件中发现如下报错Container contai...
数据分析——数据探索 数据质量分析主要检查原始数据中是否存中脏数据:缺失值异常值不一致的值重复数据及含有特殊符号的数据缺失值处理方式:删除、插补、不处理异常值简单统计量分析3σ原则箱型图分析数据特征分析...
分类算法的评估方法 基本术语常见的模型评价术语,假设分类目标只有两类,计为正例(positive)和负例(negtive)则:1)True positives(TP):被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);2)False positives(FP):被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;3)False negatives(FN):被错误地划...
python中的@ 前言多次见到@符,多次听到“装饰器”,“修饰函数”这个,之前也半知半解的学习了解过,但是又默默的忘记了,最近又遇到了,在这好好学习记录一下。定义与用途简单的讲,@是一个装饰器,针对函数,起调用传参的作用。是不是很抽象,很不好理解。下面慢慢讲:@可以在模块或者类的定义层内对函数进行修饰,出现在函数定义的前一行,不允许和函数定义在同一行,一个修饰器就是一个函数,它将被修饰的函数作为参数,并返回...
impala drop删除表注意问题 背景在使用impala drop表然后新建该表再插入数据时,发现以前的数据还在里面。drop和create过程都没有报错。。。实际分析发现,drop表后再select报错,报表不存在,但实际应该是删除了映射关系,但是hdfs上的文件并没有删掉,然后新建表后,再插入数据,数据又写入到了以前的文件里,造成该现象。处理方案impala 在执行 drop table 操作时,需要把文件移到到 h...
hive where过滤条件中数值比较注意问题 背景hive版本1.2.1问题where过滤条件中很多条件,其中包含了数值比较情况,当时开发人员没注意写的是a=0.01进行比较,a为数值型,造成过滤条件不生效的情况。单独是用a=0.01可以,但是在复杂条件下会出现问题。在impala中执行同样的sql却不会有问题,说明hive本身对数值比较的处理方式跟impala不同。解决数值型字段比较最好还是避免等值比较,还是采用相加相减在一定精...
mysql跨库转移数据 导出select * from e into outfile "/data/mysql/e.txt" fields terminated by '|';注:outfile ‘/path/file’,中的 path 需要有mysql的权限,否则会报错。导入load data infile "/data/mysql/e.txt" into table e fields terminated ...
hive函数to_unix_timestamp与unix_timestamp效率问题 可怕,hive版本1.2.1,实践中发现,to_unix_timestamp比unix_timestamp函数快几十甚至上百倍!!!
HIVE decimal类型溢出问题 背景hive版本1.2.1s1字段类型为DECIMAL(38,a)s2字段类型为DECIMAL(38,b)s3字段类型为DECIMAL(38,c)s1 * s2* s3结果为NULL,没有报错解决办法猜测为hive隐式转换数值型溢出,导致显示为NULL,可通过CAST强制转换精度进行处理,如CAST((s1 * s2) as DECIMAL(38,d)) * s3...
hive的between-and问题 背景hive版本1.2.1存储格式parquet筛选字段为STRING类型的日期,如’20190918’时出现不包含头尾的现象。实验先分别创建parquet格式T1表与textfile格式的T2表,CREATE TABLE IF NOT EXISTS TEMP.t1(a STRING ) Partitioned by (BDW_Data_Dt STRING)Stored ...
hive 表结构及数据的复制 非分区表复制表结构create table new_table like exists_table;复制表结构和数据create table new_table as select * from exists_table;分区表复制表结构create table new_table like exists_table;复制数据稍微麻烦点,使用hdfs拷贝文件,然后再修复表数据...
hdfs 跨集群数据迁移 背景测试环境数据缺失,需从开发环境同步数据过去,考虑采用Hadoop自带的数据迁移工具分析迁移数据评估开发环境数据比较杂乱,不是所有数据都需要迁移,且全部迁移即浪费时间,又没有价值,根据时间情况按库(甚至按表)进行迁移迁移工具使用Hadoop自带数据迁移工具Distcp,只需要简单的命令即可完成数据迁移。hadoop distcp hdfs://nn1:8020/dir1 hdfs:...
HDFS-Failed to add storage directory 背景重启DN,报错2019-09-16 10:30:21,724 WARN common.Storage (DataStorage.java:loadDataStorage(449)) - Failed to add storage directory [DISK]file:/hadoop/hdfs/data/java.io.IOException: Incompatible cluste...
温故知新系列之python——copy & deepcopy 经过copy操作的两个数据对象拥有不同的地址空间,但是这个数据对象如果是内嵌了其他的复杂数据对象,这个内嵌的数据对象在两个数据对象中拥有相同的地址空间,修改其中的值会互相影响。经过deepcopy的操作的不管是内层还是外层数据对象都拥有不同的地址空间,修改其中的值不会互相影响。...
温故知新系列之python——and-or语法 在网上搜了一下,python 的and-or语法与C语言的三目运算符?:有类似的功能。但bool and a or b,当 a 为假时,不会跟C语言的 bool ? a : b 一样工作常用的是把 and-or 封装成一个函数:def choose(bool, a, b): return(bool and [a] or [b])[0]因为 [a] 是一个非空列表,它永远不会为假。甚...
impala精度修改问题 背景因上游数据精度发生变化,需相应调整大数据的精度,直接进行调整后,HIVE没有问题,但impala无法正常查询修改后的表,报错为column 'XXX' has an invalid type length分析&试验最开始以为是HIVE元数据的问题,因为是分区表怀疑历史分区相关信息没有变更,然后去HIVE元数据库查,结果元数据信息是一样的。然后网上去查资料,度娘真的啥也不知道啊...
温故知新系列之python——行界符 在使用split函数时会遇到分割符问题,能被识别的行界符如下:行界符描述Line Feed 换行\rCarriage Return 回车\rCarriage Return + Line Feed 回车+换行\v or \x0bLine Tabulation\f or \x0cForm Feed 换页\x1cFile Se...