Sin_Geek
码龄14年
关注
提问 私信
  • 博客:993,634
    社区:132
    动态:21
    993,787
    总访问量
  • 202
    原创
  • 1,680,888
    排名
  • 359
    粉丝
  • 1
    铁粉

个人简介:Lovelife

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2011-06-22
博客简介:

Sin_Geek成长の迹

博客描述:
~~~
查看详细资料
个人成就
  • 获得458次点赞
  • 内容获得201次评论
  • 获得1,241次收藏
  • 代码片获得446次分享
创作历程
  • 2篇
    2020年
  • 37篇
    2019年
  • 24篇
    2018年
  • 6篇
    2017年
  • 70篇
    2016年
  • 25篇
    2015年
  • 64篇
    2014年
成就勋章
TA的专栏
  • 数据结构与算法
    9篇
  • 图像处理、计算机视觉
    6篇
  • STL学习笔记
    15篇
  • GEEK编程练习
    31篇
  • GEEK学习笔记
    12篇
  • 颜色迁移
    5篇
  • 温故知新
    6篇
  • 生活
  • 大数据技术
    44篇
  • 数据分析
    1篇
  • 杂七杂八
  • 深度学习
    2篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

用户故事地图 PDF

发布资源 2020.10.06 ·
pdf

一年多没来这,最近又想写点东西了,发现这个新玩意,上来打个卡吧。主要还是通过写,带动学习,思考,总结吧。人总是要学习的。

发布动态 2020.10.06

LINUX通过python连接ACCESS(.mdb和.accdb文件)数据库

前言因为ACCESS主要还是微软的那一套,所以WIN平台的连接方式不再赘述,网上方案很多。LINUX上的连接,主要还是分为ODBC和JDBCODBC方案包安装linux需安装的包:mdbtools, unixODBC, libmdbodbcpython需安装的包:pyodbc或pypyodbc配置配置/etc/odbcinst.ini[MDBToolsODBC]Descript...
原创
发布博客 2020.01.19 ·
4058 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Container killed on request. Exit code is 143

背景只是一条INSERT语句插入一条数据,然后就报错报错如下Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask分析之前写过这个错误,这只是个表象错误,具体问题还是需要看日志分析。Z正常日志里没有报错,在这个任务的一个POST日志文件中发现如下报错Container contai...
原创
发布博客 2020.01.08 ·
5668 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

数据分析——数据探索

数据质量分析主要检查原始数据中是否存中脏数据:缺失值异常值不一致的值重复数据及含有特殊符号的数据缺失值处理方式:删除、插补、不处理异常值简单统计量分析3σ原则箱型图分析数据特征分析...
原创
发布博客 2019.12.28 ·
556 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

分类算法的评估方法

基本术语常见的模型评价术语,假设分类目标只有两类,计为正例(positive)和负例(negtive)则:1)True positives(TP):被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);2)False positives(FP):被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;3)False negatives(FN):被错误地划...
原创
发布博客 2019.12.24 ·
1372 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

python中的@

前言多次见到@符,多次听到“装饰器”,“修饰函数”这个,之前也半知半解的学习了解过,但是又默默的忘记了,最近又遇到了,在这好好学习记录一下。定义与用途简单的讲,@是一个装饰器,针对函数,起调用传参的作用。是不是很抽象,很不好理解。下面慢慢讲:@可以在模块或者类的定义层内对函数进行修饰,出现在函数定义的前一行,不允许和函数定义在同一行,一个修饰器就是一个函数,它将被修饰的函数作为参数,并返回...
原创
发布博客 2019.11.15 ·
922 阅读 ·
4 点赞 ·
0 评论 ·
5 收藏

impala drop删除表注意问题

背景在使用impala drop表然后新建该表再插入数据时,发现以前的数据还在里面。drop和create过程都没有报错。。。实际分析发现,drop表后再select报错,报表不存在,但实际应该是删除了映射关系,但是hdfs上的文件并没有删掉,然后新建表后,再插入数据,数据又写入到了以前的文件里,造成该现象。处理方案impala 在执行 drop table 操作时,需要把文件移到到 h...
原创
发布博客 2019.09.26 ·
3739 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

hive where过滤条件中数值比较注意问题

背景hive版本1.2.1问题where过滤条件中很多条件,其中包含了数值比较情况,当时开发人员没注意写的是a=0.01进行比较,a为数值型,造成过滤条件不生效的情况。单独是用a=0.01可以,但是在复杂条件下会出现问题。在impala中执行同样的sql却不会有问题,说明hive本身对数值比较的处理方式跟impala不同。解决数值型字段比较最好还是避免等值比较,还是采用相加相减在一定精...
原创
发布博客 2019.09.26 ·
2702 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

mysql跨库转移数据

导出select * from e into outfile "/data/mysql/e.txt" fields terminated by '|';注:outfile ‘/path/file’,中的 path 需要有mysql的权限,否则会报错。导入load data infile "/data/mysql/e.txt" into table e fields terminated ...
原创
发布博客 2019.09.25 ·
1279 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hive函数to_unix_timestamp与unix_timestamp效率问题

可怕,hive版本1.2.1,实践中发现,to_unix_timestamp比unix_timestamp函数快几十甚至上百倍!!!
原创
发布博客 2019.09.25 ·
4384 阅读 ·
1 点赞 ·
1 评论 ·
2 收藏

HIVE decimal类型溢出问题

背景hive版本1.2.1s1字段类型为DECIMAL(38,a)s2字段类型为DECIMAL(38,b)s3字段类型为DECIMAL(38,c)s1 * s2* s3结果为NULL,没有报错解决办法猜测为hive隐式转换数值型溢出,导致显示为NULL,可通过CAST强制转换精度进行处理,如CAST((s1 * s2) as DECIMAL(38,d)) * s3...
原创
发布博客 2019.09.25 ·
7895 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

hive的between-and问题

背景hive版本1.2.1存储格式parquet筛选字段为STRING类型的日期,如’20190918’时出现不包含头尾的现象。实验先分别创建parquet格式T1表与textfile格式的T2表,CREATE TABLE IF NOT EXISTS TEMP.t1(a STRING ) Partitioned by (BDW_Data_Dt STRING)Stored ...
原创
发布博客 2019.09.19 ·
22209 阅读 ·
5 点赞 ·
0 评论 ·
7 收藏

hive 表结构及数据的复制

非分区表复制表结构create table new_table like exists_table;复制表结构和数据create table new_table as select * from exists_table;分区表复制表结构create table new_table like exists_table;复制数据稍微麻烦点,使用hdfs拷贝文件,然后再修复表数据...
原创
发布博客 2019.09.16 ·
818 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hdfs 跨集群数据迁移

背景测试环境数据缺失,需从开发环境同步数据过去,考虑采用Hadoop自带的数据迁移工具分析迁移数据评估开发环境数据比较杂乱,不是所有数据都需要迁移,且全部迁移即浪费时间,又没有价值,根据时间情况按库(甚至按表)进行迁移迁移工具使用Hadoop自带数据迁移工具Distcp,只需要简单的命令即可完成数据迁移。hadoop distcp hdfs://nn1:8020/dir1 hdfs:...
原创
发布博客 2019.09.16 ·
447 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

HDFS-Failed to add storage directory

背景重启DN,报错2019-09-16 10:30:21,724 WARN common.Storage (DataStorage.java:loadDataStorage(449)) - Failed to add storage directory [DISK]file:/hadoop/hdfs/data/java.io.IOException: Incompatible cluste...
原创
发布博客 2019.09.16 ·
2364 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

温故知新系列之python——copy & deepcopy

经过copy操作的两个数据对象拥有不同的地址空间,但是这个数据对象如果是内嵌了其他的复杂数据对象,这个内嵌的数据对象在两个数据对象中拥有相同的地址空间,修改其中的值会互相影响。经过deepcopy的操作的不管是内层还是外层数据对象都拥有不同的地址空间,修改其中的值不会互相影响。...
原创
发布博客 2019.09.04 ·
283 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

温故知新系列之python——and-or语法

在网上搜了一下,python 的and-or语法与C语言的三目运算符?:有类似的功能。但bool and a or b,当 a 为假时,不会跟C语言的 bool ? a : b 一样工作常用的是把 and-or 封装成一个函数:def choose(bool, a, b): return(bool and [a] or [b])[0]因为 [a] 是一个非空列表,它永远不会为假。甚...
原创
发布博客 2019.09.03 ·
329 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

impala精度修改问题

背景因上游数据精度发生变化,需相应调整大数据的精度,直接进行调整后,HIVE没有问题,但impala无法正常查询修改后的表,报错为column 'XXX' has an invalid type length分析&试验最开始以为是HIVE元数据的问题,因为是分区表怀疑历史分区相关信息没有变更,然后去HIVE元数据库查,结果元数据信息是一样的。然后网上去查资料,度娘真的啥也不知道啊...
原创
发布博客 2019.08.20 ·
3322 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

温故知新系列之python——行界符

在使用split函数时会遇到分割符问题,能被识别的行界符如下:行界符描述
Line Feed 换行\rCarriage Return 回车\r
Carriage Return + Line Feed 回车+换行\v or \x0bLine Tabulation\f or \x0cForm Feed 换页\x1cFile Se...
原创
发布博客 2019.08.15 ·
338 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏
加载更多