自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(230)
  • 资源 (66)
  • 论坛 (2)
  • 收藏
  • 关注

原创 回归--偶尔还是要写点东西的

回归--偶尔还是要写点东西的七七八八资产配置投资保险工作成长其他七七八八应该有将近一年没怎么写过东西了,之前写也基本是关于技术的文章,看了下文章记录,最新一篇也是今年1月份的啦,确实好久没写点什么了。仔细想想总结,有如下几方面原因吧。工作方面:工作侧重点调整,从平台开发转向数据挖掘分析,也开始担任一些行政组织管理方面的事情。一个是接触相关问题的机会少了,另一个是开发学习的时间也少了。可能仅有的时间用来学习思考数据价值层面的事情了。家庭方面:迎来新的家庭成员,还是会占据不少时间与精力的个人方面:年

2020-10-06 11:31:40 146

原创 LINUX通过python连接ACCESS(.mdb和.accdb文件)数据库

前言因为ACCESS主要还是微软的那一套,所以WIN平台的连接方式不再赘述,网上方案很多。LINUX上的连接,主要还是分为ODBC和JDBCODBC方案包安装linux需安装的包:mdbtools, unixODBC, libmdbodbcpython需安装的包:pyodbc或pypyodbc配置配置/etc/odbcinst.ini[MDBToolsODBC]Descript...

2020-01-19 15:09:48 953

原创 Container killed on request. Exit code is 143

背景只是一条INSERT语句插入一条数据,然后就报错报错如下Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask分析之前写过这个错误,这只是个表象错误,具体问题还是需要看日志分析。Z正常日志里没有报错,在这个任务的一个POST日志文件中发现如下报错Container contai...

2020-01-08 18:31:59 1000

原创 数据分析——数据探索

数据质量分析主要检查原始数据中是否存中脏数据:缺失值异常值不一致的值重复数据及含有特殊符号的数据缺失值处理方式:删除、插补、不处理异常值简单统计量分析3σ原则箱型图分析数据特征分析...

2019-12-28 15:46:32 119

原创 分类算法的评估方法

基本术语常见的模型评价术语,假设分类目标只有两类,计为正例(positive)和负例(negtive)则:1)True positives(TP):被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);2)False positives(FP):被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;3)False negatives(FN):被错误地划...

2019-12-24 10:50:55 332

原创 python中的@

前言多次见到@符,多次听到“装饰器”,“修饰函数”这个,之前也半知半解的学习了解过,但是又默默的忘记了,最近又遇到了,在这好好学习记录一下。定义与用途简单的讲,@是一个装饰器,针对函数,起调用传参的作用。是不是很抽象,很不好理解。下面慢慢讲:@可以在模块或者类的定义层内对函数进行修饰,出现在函数定义的前一行,不允许和函数定义在同一行,一个修饰器就是一个函数,它将被修饰的函数作为参数,并返回...

2019-11-15 18:51:01 218

原创 impala drop删除表注意问题

背景在使用impala drop表然后新建该表再插入数据时,发现以前的数据还在里面。drop和create过程都没有报错。。。实际分析发现,drop表后再select报错,报表不存在,但实际应该是删除了映射关系,但是hdfs上的文件并没有删掉,然后新建表后,再插入数据,数据又写入到了以前的文件里,造成该现象。处理方案impala 在执行 drop table 操作时,需要把文件移到到 h...

2019-09-26 14:16:31 1393

原创 hive where过滤条件中数值比较注意问题

背景hive版本1.2.1问题where过滤条件中很多条件,其中包含了数值比较情况,当时开发人员没注意写的是a=0.01进行比较,a为数值型,造成过滤条件不生效的情况。单独是用a=0.01可以,但是在复杂条件下会出现问题。在impala中执行同样的sql却不会有问题,说明hive本身对数值比较的处理方式跟impala不同。解决数值型字段比较最好还是避免等值比较,还是采用相加相减在一定精...

2019-09-26 09:46:43 1470

原创 mysql跨库转移数据

导出select * from e into outfile "/data/mysql/e.txt" fields terminated by '|';注:outfile ‘/path/file’,中的 path 需要有mysql的权限,否则会报错。导入load data infile "/data/mysql/e.txt" into table e fields terminated ...

2019-09-25 19:19:32 672

原创 hive函数to_unix_timestamp与unix_timestamp效率问题

可怕,hive版本1.2.1,实践中发现,to_unix_timestamp比unix_timestamp函数快几十甚至上百倍!!!

2019-09-25 08:27:46 1645

原创 HIVE decimal类型溢出问题

背景hive版本1.2.1s1字段类型为DECIMAL(38,a)s2字段类型为DECIMAL(38,b)s3字段类型为DECIMAL(38,c)s1 * s2* s3结果为NULL,没有报错解决办法猜测为hive隐式转换数值型溢出,导致显示为NULL,可通过CAST强制转换精度进行处理,如CAST((s1 * s2) as DECIMAL(38,d)) * s3...

2019-09-25 08:25:01 3439

原创 hive的between-and问题

背景hive版本1.2.1存储格式parquet筛选字段为STRING类型的日期,如’20190918’时出现不包含头尾的现象。实验先分别创建parquet格式T1表与textfile格式的T2表,CREATE TABLE IF NOT EXISTS TEMP.t1(a STRING ) Partitioned by (BDW_Data_Dt STRING)Stored ...

2019-09-19 09:18:32 5764

原创 hive 表结构及数据的复制

非分区表复制表结构create table new_table like exists_table;复制表结构和数据create table new_table as select * from exists_table;分区表复制表结构create table new_table like exists_table;复制数据稍微麻烦点,使用hdfs拷贝文件,然后再修复表数据...

2019-09-16 16:34:24 252

原创 hdfs 跨集群数据迁移

背景测试环境数据缺失,需从开发环境同步数据过去,考虑采用Hadoop自带的数据迁移工具分析迁移数据评估开发环境数据比较杂乱,不是所有数据都需要迁移,且全部迁移即浪费时间,又没有价值,根据时间情况按库(甚至按表)进行迁移迁移工具使用Hadoop自带数据迁移工具Distcp,只需要简单的命令即可完成数据迁移。hadoop distcp hdfs://nn1:8020/dir1 hdfs:...

2019-09-16 15:41:47 115

原创 HDFS-Failed to add storage directory

背景重启DN,报错2019-09-16 10:30:21,724 WARN common.Storage (DataStorage.java:loadDataStorage(449)) - Failed to add storage directory [DISK]file:/hadoop/hdfs/data/java.io.IOException: Incompatible cluste...

2019-09-16 15:11:55 668

原创 温故知新系列之python——copy & deepcopy

经过copy操作的两个数据对象拥有不同的地址空间,但是这个数据对象如果是内嵌了其他的复杂数据对象,这个内嵌的数据对象在两个数据对象中拥有相同的地址空间,修改其中的值会互相影响。经过deepcopy的操作的不管是内层还是外层数据对象都拥有不同的地址空间,修改其中的值不会互相影响。...

2019-09-04 11:25:03 92

原创 温故知新系列之python——and-or语法

在网上搜了一下,python 的and-or语法与C语言的三目运算符?:有类似的功能。但bool and a or b,当 a 为假时,不会跟C语言的 bool ? a : b 一样工作常用的是把 and-or 封装成一个函数:def choose(bool, a, b): return(bool and [a] or [b])[0]因为 [a] 是一个非空列表,它永远不会为假。甚...

2019-09-03 11:22:53 104

原创 impala精度修改问题

背景因上游数据精度发生变化,需相应调整大数据的精度,直接进行调整后,HIVE没有问题,但impala无法正常查询修改后的表,报错为column 'XXX' has an invalid type length分析&试验最开始以为是HIVE元数据的问题,因为是分区表怀疑历史分区相关信息没有变更,然后去HIVE元数据库查,结果元数据信息是一样的。然后网上去查资料,度娘真的啥也不知道啊...

2019-08-20 09:09:11 973

原创 温故知新系列之python——行界符

在使用split函数时会遇到分割符问题,能被识别的行界符如下:行界符描述\nLine Feed 换行\rCarriage Return 回车\r\nCarriage Return + Line Feed 回车+换行\v or \x0bLine Tabulation\f or \x0cForm Feed 换页\x1cFile Se...

2019-08-15 19:15:08 131

原创 温故知新系列之python——基础要素

format()优点:不需要关注数据类型,而在%方法中%s只能替代字符串类型单个参数可以多次输出,参数顺序可以不相同填充方式十分灵活,对齐方式十分强大官方推荐用的方式简单字段名三种写法:省略不写{}数字 {十进制非负整数}变量名 {合法的Python标识符}复合字段名支持两种操作符:[]方括号.点号转换字段的取值有三种,前面要加!:s:传递参数之前先对参数调用 ...

2019-08-14 14:16:06 72

原创 ^M: bad interpreter: No such file or directory

背景shell脚本从Windows直接上传到Linux服务器上,运行报错。原因win跟linux字符不同导致方案vi打开文件,修改格式:set ff=unix或者在win平台有编辑器先转换到linux格式,再上传...

2019-07-08 14:35:42 335

原创 LINUX 磁盘空间问题总结

df -h 查看磁盘使用情况du -h -x –max-depth=1 查看目录占用空间大小du的工作原理du命令会对待统计文件逐个调用fstat这个系统调用,获取文件大小。它的数据是基于文件获取的,所以有很大的灵活性,不一定非要针对一个分区,可以跨越多个分区操作。如果针对的目录中文件很多,du速度就会很慢了。df的工作原理df命令使用的事statfs这个系统调用,直接读取分...

2019-06-26 17:22:25 120

原创 vi打开GBK编码文件乱码问题

问题vi打开GBK编码的文件乱码原理Vim有四个跟字符编码方式有关的选项,encoding、fileencoding、fileencodings、termencoding。它们的意义如下:encoding(enc):encoding是Vim的内部使用编码,encoding的设置会影响Vim内部的Buffer、消息文字等。在 Unix环境下,encoding的默认设置等于locale;Wi...

2019-06-26 16:36:18 988

原创 hive中关键字作为列名的方法

背景上游系统表字段名是HIVE的关键字,但是抽取到大数据平台时,需要贴源,即不改变上游表结构,需保留该字段名。方法使用反单引号,一般为键盘ESC的下方,数字键1的左边,与~符号同一个键的返单引号键`SELECT `COMMENT` FROM TEST;...

2019-06-18 08:18:40 3163

原创 CRISP-DM模型

整理笔记,记一下~框架内容业务理解(Business Understanding)深刻理解业务需求,在需求的基础上制定目标和实现目标的计划数据理解(Data Understanding)主要为收集数据、熟悉数据、识别数据的质量问题。数据准备(Data Preparation)从收集的数据种选择必要的属性,并按关联关系将它们连接成一个数据集,然后进行数据清洗,如空值和异常值处理、离...

2019-05-25 22:20:54 1039

原创 hive explode与lateral view小记

之前也经常用到这两个函数,一般都是两个一起使用,没有区分这两个函数的区别。最近在用的时候,查了下还是在这里记录一下。explodeexplode函数作用就是将hive一行中复杂的array或者map结构拆分成多行。lateral viewlateral view与用户定义的表生成函数一起使用,如explode函数,为了解决UDTF不允许在select字段的问题。UDTF为每个输入行生成零...

2019-05-24 14:51:13 310

原创 HDFS Standby NameNode 启动问题

背景运行中的环境,平台发现告警NameNode Directory Status报警,具体为Failed directory count: 1,不影响使用,然后第二天晚上又发生Last Checkpoint的报错,查看HDFS Standby NameNode节点日志发现Exception in doCheckpoint,然后直接重启该Namenode,就发现重启失败,错误提示为NameNode...

2019-04-26 12:27:50 648

原创 Sqoop export 导出推数详解

前言因为工作上用到sqoop从hive导出数据到关系型数据库,所以学习了下sqoop导出的具体功能,因除官网外(全英文,可能部分人不喜欢看英文),没有特别好的资料,在此整理总结下自己关注的一些东西。环境说明,sqoop 1.4.6,先按照导出到mysql进行总结。命令参数主要整理可能用到的参数,不包含所有参数,有需要可以自行去官方查看~~eval可使用SQL语句对关系数据库进行操作。后面...

2019-04-03 09:31:00 3978

原创 git archive 存在删除文件时报错

背景使用git archive打包两次提交之间的代码时,若中间存在已删除的文件,就会报 fatal:pathspec ‘xxxxxx’ did not match any files如:git archive --format=zip HEAD `git diff --name-only XXX1 XXX2` > 201903.zip方案获取两次提交之间不同的代码时,添加过滤条件...

2019-03-18 14:43:26 436

原创 Hive分区表新增字段值为NULL

背景对于HIVE分区表通过add column添加字段,向已存在分区中插入数据,结果新增字段的值全部为null。 已存在分区会产生该问题,新分区不会产生该问题。原因实际上数据是插入成功的。HDFS上的数据更新了,但是我们查询的时候仍然查询的是旧的元数据信息(即Mysql中的信息)官方解释如下:Change Column Name/Type/Position/CommentALTER T...

2019-03-08 14:31:19 270

原创 Type DECIMAL is not supported in Kudu问题

背景使用IMPALA创建KUDU表的时报错。建表语句如下CREATE TABLE MY.TESTDECIMAL(ID INT PRIMARY KEY,AMT DECIMAL(18,2) )PARTITION BY HASH PARTITIONS 2STORED AS KUDU; 报错信息如下:Type DECIMAL(18,2) is not supported in Ku...

2019-03-06 11:37:48 893

原创 Docker删除images问题——image has dependent child images

背景偶然间发现服务器上有很多镜像占用不少空间,想清理一下。结果直接进行删除报错:docker rmi 8f5116cbc201Error response from daemon: conflict: unable to delete 8f5116cbc201 (cannot be forced) - image has dependent child images然后上网需求方法,...

2019-02-01 10:22:09 10252

原创 Sqoop执行时的权限问题

错误信息如下:Permission denied: user=xxx,access=WRITE,inode="/user/xxx/.staging":hdfs:hdfs:drwxr-xr-x解决方法如下:hadoop fs -ls /user 查看目录然后又有两种可选1、切换到其中的用户2、赋权限 hadoop fs -chmod 777 /user/xxx(用哪个用户执行的,报哪...

2019-01-31 15:00:55 1948

原创 sqoop推数数据错误问题

背景在项目中使用sqoop往oracle推小数的时候发生数据异常的情况原因sqoop使用的oracle jdbc包版本太低,项目使用的是oracle 11g的版本,sqoop里的jdbc包是ojdbc14,是针对oracle 10的版本,针对11g版本至少是ojdbc5.方案直接换成ojdbc7,解决。...

2019-01-31 10:16:46 212

原创 Pyhive连接impala执行sql的问题

背景使用pyhive连接impala并执行sql语句,发现总是sql执行总是异常。原因经过跟踪源代码发现,pyhive执行sql的函数execute(),虽然指定了同步执行,但是同步只适用于执行hive的sql,对于impala来说,并没有起作用,导致实际执行的impala sql为异步的,则会出现异常情况。方案可人为判断sql执行情况,实现同步执行。通过poll()函数,获取TOpe...

2019-01-28 08:25:16 1089

原创 impala报错NoSuchMethodError: org.apache.hadoop.hive.metastore.MetaStoreUtils.updatePartitionStatsFast

背景在使用impala往表的新分区写数据时报错NoSuchMethodError: org.apache.hadoop.hive.metastore.MetaStoreUtils.updatePartitionStatsFast(Lorg/apache/hadoop/hive/metastore/api/Partition;Lorg/apache/hadoop/hive/metastore/W...

2019-01-09 16:09:05 1255

原创 Apache Kudu 的事务概念

Kudu 旨在最终完全获得 ACID ,但是多 tablet 事务尚未实施。最终 Kudu 将支持完全严格的可序列化语义。事实上,它已经在有限的范围内,但并不是所有的角落都被覆盖,因为这仍然是一个正在进行的工作。Kudu 目前允许以下操作:Write operations是在具有多个副本的单个 tablet 中,插入、更新或删除的 sets of rows ( 行集 )。写操作没有单独的 “...

2019-01-09 14:54:41 1460

原创 Impala create file /tmp/impala-scratch 报错

背景使用impala对大数据量进行处理时出现如下错误Create file /tmp/impala-scratch/XXX failed with errno=2 description=Error(2): No such file or directory原因查资料发现impala在大数据量处理时会用到磁盘保存中间数据By default, intermediate files us...

2019-01-09 08:18:12 597

原创 python连接impala

网上的教程一般都是使用impyla,这里就不详细描述。因为项目本身先是用的HIVE作业,使用的是pyhive。安装impyla时,有些依赖包与之前的冲突,导致impala可以连接,但是hive连接不上,所以只能想别的办法。经过尝试后,发现pyhive可以直接连接impala,LZ的impala是开启了LDAP认证的:from pyhive import hiveconn = hive.Con...

2019-01-05 10:30:31 3685

原创 Kudu模式设计

Kudu 表具有与传统 RDBMS 中的表类似的结构化数据模型。模式设计对于实现 Kudu 的最佳性能和运行稳定性至关重要。每个工作负载都是独一无二的,没有一个最合适每个表的单一模式设计。在高层次上,创建 Kudu 表有三个问题:列设计,主键设计和分区设计。其中只有分区对于熟悉传统的非分布式关系数据库的人来说将是一个新的概念。The Perfect Schema (完美的模式)完美的模式将完成...

2019-01-02 08:34:00 725

人脸表情识别FER2013数据集

KAGGLE 人脸表情识别FER2013数据集

2018-10-10

用户故事地图 PDF

产品经理,精益敏捷,迭代运作,用户故事,描述需求与开发高效协同。此版本为PDF版本,清晰度还不错,分享给大家。。。

2020-10-06

MD5算法实现源代码

MD5算法,使用C\C++实现,可以进行借鉴学习~~~~

2014-09-26

SHA-1算法实现源代码

C++写的SHA-1算法实现源代码,供借鉴学习使用~~~

2014-09-29

对话框控件大小位置改变

利用宏控制对话框上的控件,随对话框大小的改变而改变大小与位置~方便使用

2014-08-22

GDI多线程绘图

gdi绘图的多线程实现,是MFC框架下的,MS标准例子

2014-04-01

数字图像处理源代码

Visual C++数字图像获取、处理及实践应用之中详细的讲解了图像的采集、获取、编码、存储和传输,图像的合成和产生,图像的显示、绘制和输出、图像的变换、增强、恢复和重建,特征的提取和测量,目标的检测、表达和描述,图像的分类、表示和识别等等功能实现源代码。

2014-03-16

ListCtrl源代码

ListCtrl功能扩展,简单的ListCtrl功能实现源代码,提供一个实例~~

2014-03-17

二维码生成器

二维码的生成源代码,包括一些选项功能的设置,虽然语言是日语的,但是代码可以很好的利用。

2014-03-17

EditableListControl

ListCtrl的实现源代码,实现简单的ListCtrl功能,VC++

2014-03-17

图像绘制系统

简单的绘图系统 供初学者借鉴学习使用

2014-03-17

DIB图像处理

利用DIB写的部分类似PHOTOSHOP功能的图像系统源代码。

2014-03-17

小型绘图系统

用VC++写的小型绘图系统 供初学者借鉴学习使用

2014-03-17

C++ Primer第四版中文版

作者: 美 Stanley B LippmanBarbara E Moo JoséeLaJoie 著 李师贤等译

2014-03-17

CXImage图像处理

利用CXImage进行数字图像处理的源代码,有利于CXImage使用学习。

2014-03-17

深入浅出MFC

作者:侯俊杰 出版社:华中科技大学出版社

2014-03-17

Effective C++

Effective C++是世界顶级C++大师Scott Meyers的成名之作,初版于1991年。在国际上,这本书所引起的反响之大,波及整个计算机技术出版领域,余音至今未绝。几乎在所有C++书籍的推荐名单上,这部专著都会位于前三名。

2014-03-17

[C语言深度剖析.-.解开程序员面试笔试的秘密].陈正冲.石虎.文字版

[C语言深度剖析.-.解开程序员面试笔试的秘密].陈正冲.石虎.文字版

2014-03-17

C++标准程序库

这本包含最新资料的完整书籍,反映出被ANSI/ISO C++语言标准规格书纳入的C++标准程序库的最新组成。

2014-03-17

图像处理代码

灰度化、负像、二值化、线性拉伸、椒盐噪声、均值滤波

2012-11-26

数据库管理学生档案

数据库 MFC 读取、修改、删除、查找学生信息,包括图片,姓名,年龄等

2012-11-26

面积计算并画出图像程序

计算三角形,四边形,圆形面积并画出图像的程序.

2012-01-03

网易时序大数据应用实践

网易时序大数据应用实践~

2018-12-11

Facial-Expression-Recognition模型文件

github上WuJie1010的Facial-Expression-Recognition模型文件

2018-10-06

颜色迁移程序

参考图像可以选择1幅,也可以选择多幅,不支持灰度图像彩色化,对某些互补色处理不好。

2017-06-07

TensorFlow白皮书(官方文档)

Google谷歌官方TensorFlow白皮书,官方使用说明文档~~

2015-12-01

Python2.x OpenCV模块包(64位)

Python2.x OpenCV模块包,64位,具体配置见lz博客

2015-06-13

Python2.x OpenCV模块包

Python2.x OpenCV模块包,32位。配置说明见lz博客

2015-06-13

计算机程序设计艺术_卷4_4_生成所有树组合生成和历史

计算机程序设计艺术_卷4_4_生成所有树组合生成和历史,中文扫描版,248页

2015-05-28

计算机程序设计艺术_卷4_3_生成所有组合和分划

计算机程序设计艺术_卷4_3_生成所有组合和分划,中文扫描版,324页

2015-05-28

计算机程序设计艺术_卷4_2_生成所有元组和排列

计算机程序设计艺术_卷4_2_生成所有元组和排列,中文扫描版,272页

2015-05-28

计算机程序设计艺术_卷4_1_A

计算机程序设计艺术_卷4_1_A,英文版,123页

2015-05-28

计算机程序设计艺术_卷4_0_组合算法与布尔函数概论

计算机程序设计艺术_卷4_0_组合算法与布尔函数概论,中文扫描版,443页

2015-05-28

计算机程序设计艺术_卷3_排序与查找

计算机程序设计艺术_卷3_排序与查找,中文扫描版,800页

2015-05-28

计算机程序设计艺术_卷2_半数值算法

计算机程序设计艺术_卷2_半数值算法,中文扫描版,781页

2015-05-28

计算机程序设计艺术_卷1_基本算法

计算机程序设计艺术_卷1_基本算法,中文扫描版,无书签,657页

2015-05-28

PHP从入门到精通

PHP从入门到精通第2版,中文扫描版,无书签,575页

2015-05-28

加密与解密 (第三版)

加密与解密 (第三版),中文扫描版,无书签,570页

2015-05-28

计算机网络第五版

计算机网络第五版,中文扫描版,有书签,420页

2015-05-28

黑客反汇编揭秘

黑客反汇编揭秘,中文扫描版,无书签,547页

2015-05-28

Sin_Geek的留言板

发表于 2020-01-02 最后回复 2020-01-02

博客排名出BUG了么?

发表于 2019-05-14 最后回复 2019-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除