昵称诚诚
码龄13年
关注
提问 私信
  • 博客:689,664
    社区:716
    问答:939
    691,319
    总访问量
  • 107
    原创
  • 1,768,942
    排名
  • 46
    粉丝
  • 0
    铁粉

个人简介:stay hungry, stay foolish

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2012-07-25
博客简介:

半路出家,立地为猿

博客描述:
一个半路出家 程序猿 的一点学习点滴。。。
查看详细资料
个人成就
  • 获得90次点赞
  • 内容获得44次评论
  • 获得237次收藏
  • 代码片获得185次分享
创作历程
  • 1篇
    2022年
  • 6篇
    2021年
  • 7篇
    2020年
  • 2篇
    2019年
  • 5篇
    2018年
  • 18篇
    2017年
  • 25篇
    2016年
  • 69篇
    2015年
  • 1篇
    2014年
成就勋章
TA的专栏
  • Python
    14篇
  • 大数据
    12篇
  • Linux
    29篇
  • Java
    3篇
  • Javascript
    10篇
  • hive
    12篇
  • hadoop
    5篇
  • Struts2
    2篇
  • Redis
    4篇
  • datamining
    3篇
  • 概念名词
    3篇
  • Nodejs
    3篇
  • CSS
  • Mysql
    11篇
  • 网络安全
    2篇
  • UML
    1篇
  • memcache
    3篇
  • Junit
    1篇
  • Hibernate
    1篇
  • WEB协议相关
    3篇
  • eclipse
    1篇
  • Macbook
    5篇
  • 工作中遇到的bug
    3篇
  • kafka
    2篇
  • impala
    2篇
  • spark
    6篇
  • vmware
    1篇
  • kylin
    1篇
  • 研发管理
    2篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
  • 网络空间安全
    安全架构
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

多个SPARK版本导致任务提交问题

spark-submit 错误
原创
发布博客 2022.08.19 ·
583 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

数据治理导图

收到一张图,保存一下来自网络,侵删.
原创
发布博客 2021.11.04 ·
384 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

利用inner join核对两张表的数据

1、inner join 浅尝提到比对两张表的数据是否完全相同,很容易想到用inner join关联两张表去比较。Inner join的基本语法是:select collist from t1 inner join t2 on condition1 and condition2…;简单理解就是对于t1表中的每一行,将它与t2表的每一行进行比较,检查他们是否满足关联条件,当满足关联条件时,inner join 将返回由t1和t2表中的列组成的新行,当无法满足关联条件时,将返回一个空结果。下面举个例子:
转载
发布博客 2021.10.29 ·
3246 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

数仓建设之指标体系搭建

一、 什么是指标体系1**. 指标体系定义**指标体系是将零散单点的具有相互联系的指标,系统化的组织起来,通过单点看全局,通过全局解决单点的问题。它主要由指标和体系两部分组成。指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。指标主要分为结果型和过程型:结果型指标:用于衡量用户发生某个动作后所产生的结果,通常是延后知道的,很难进行干预。结果型指标更多的是监控数据异常,或者是监控某个场景下用户需求是否被满足过程型
原创
发布博客 2021.07.08 ·
877 阅读 ·
1 点赞 ·
2 评论 ·
3 收藏

数据仓库建设思路

数据仓库的实现方通常有 自顶向下、自底向上和两者结合进行的这样三种实现方案。自顶向下实现:自顶向下的实现需要在项目开始时完成更多计划和设计工作,这就需要涉及参与数据仓库实现的每个工作组、部门或业务线中的人员。要使 用的数据源、安全性、数据结构、数据质量、数据标准和整个数据模型的有关决策一般需要在真正的实现开始之前就完成。自底向上实现:自底向上的实现包含数据仓库的规划和设计,无需等待安置好更大业务范围的数据仓库设计。这并不意味着不会开发更大业务范围的数据仓 库设计;随着初始数据仓库实现的扩展,将逐渐增加
原创
发布博客 2021.07.01 ·
1093 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Hive SQL底层执行过程详细剖析

看到一篇干货,copy一下本文结构采用宏观着眼,微观入手,从整体到细节的方式剖析 Hive SQL 底层原理。第一节先介绍 Hive 底层的整体执行流程,然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理。**Hive**Hive是什么?Hive 是数据仓库工具,再具体点就是一个 SQL 解析引擎,因为它即不负责存储数据,也不负责计算数据,只负责解析 SQL,记录元数据。Hive直接访问存储在 HDFS 中
转载
发布博客 2021.06.18 ·
646 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Hive 动态分区

hive可以通过分区缩小数据集,避免全表扫描,提高查询速度和性能的。Hive的分区主要有两种:静态分区和 动态分区Hive静态分区Hive的静态分区,实际上就是手动指定分区的值为静态值,这种对于小批量的分区插入比较友好。在插入语句中如果partition字段指定了具体的值 ,例如:partition(year=“2020”)这样的分区就叫静态分区了,是不是很简单?Hive动态分区Hive的动态分区,其实就是把静态分区中的分区值设置为动态的值insert overwri...
原创
发布博客 2021.04.07 ·
2443 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

07 数据分析- 决策性分析

决策性分析通过数据分析、挖掘确定事件的最佳执行方案,以增加收入、降低成本、提升效率、控制风险的目的决策大决策决策频率低,单次决策影响大,价值高目标:提供决策支持,帮助决策人员做出最佳决策小决策决策频率高,单次决策影响小,总价值高目标:根据决策目标,通过决策系统给出最佳决策结果决策支持的分析步骤(大决策)1. 现状是什么 - 描述性分析2. 现状存在哪些问题 - 诊断性分析...
原创
发布博客 2020.04.26 ·
752 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

06数据分析 - 预测性分析

预测性分析分类 1. 决策树算法 计算步骤: 选择对象的一个特征,并根据这一特征对训练集进行分类 计算某特征分类后分类结果的混乱程度 (使用基尼系数,系数越小越接近根结点) ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200425112417134.png?x-oss-process=image/watermark,ty...
原创
发布博客 2020.04.25 ·
2037 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

05 数据分析 - 诊断性分析方法

诊断性分析: 根据业务逻辑,通过数据寻找引起最终结果的原因和可以改变未来结果的方法分析目的解决问题 坏的结果 -> 产生问题的原因和解决的方案发现机会 好的结果 -> 在机会出现的时候发现机会分析步骤List item确定问题的描述指标,以及指标的统计逻辑确定指标的类别,是基础指标还是复合指标对复合指标进行分解,分解到基础指标对指标的描述对象进行分解,分解到基...
原创
发布博客 2020.04.24 ·
4255 阅读 ·
2 点赞 ·
0 评论 ·
4 收藏

04数据分析- 描述性分析方法

描述性分析方法描述性分析目的是描述现实,发现问题全链路描述性方法的步骤:1. 确定描述对象2. 明确业务目标,熟悉业务逻辑3. 分割业务环节,确定关键节点4. 利益关系人及关系人的关注点5. 确定可以描述分析对象的指标6. 确定指标的评价标准指标的评价方法:1、事件结果的评价: 结果是好还是坏同评价标准比同目标比相同级别对象之间的比较行业水平的比较2、事件变化趋势的评...
原创
发布博客 2020.04.22 ·
3082 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

03 数据分析之分布分析

分布分析对数据的分布情况进行描述,从而对事件的发生规律有准确的认识定量数据目的是可以让我们了解:事件发生的一般结果是什么 --集中趋势事件结果的变化情况 – 离中趋势事件各个结果的发生概率是什么 --图形特征定量分析的指标:- 中心位置/集中趋势 :均值、中位数、众数、四分位数- 分散程度/离中趋势:方差、标准差、极差、变异系数{标准差/平均值...
原创
发布博客 2020.04.21 ·
2127 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

02 数据分析-数据指标与质量

数据指标根据数据统计或数据分析得到的反映或评价某一事件的数据指标的属性:业务属性 —— 名称、计算逻辑、描述对象、时效和查询权限等技术属性 —— 系统来源、取数字段、取数频率、加工规则指标的类别1. 按照统计方式分 基础指标: 是描述对象的直接统计结果,未经过转化的数据,如交易笔数、交易金额、交易用户数 复合指标: 建立在基础指标之上,通过一定的运算规则形成的反映事件结果的数据...
原创
发布博客 2020.04.20 ·
584 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

01 数据分析的四个等级

一. 描述性分析 - 监控现状 以级成事件的关键环节为基础,通过设置合理的指标对各环节进行量化,以达到还原事件的目的。 同时可以根据科学的评价标准,发现事件发生过程中的异常 分析目的:1. 描述现实 -——发生了什么 what who when where...
原创
发布博客 2020.04.19 ·
1360 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

学习笔记(02):大数据项目实战电商推荐系统-04_电商推荐系统_项目系统设计(下)...

本教程为官方授权出品 如今大数据已经成了各大互联网公司工作的重点方向,而推荐系统可以说就是大数据最好的落地应用之一,已经为企业带来了可观的用户流量和销售额。特别是对于电商,好的推荐系统可以大大提升电商企业的销售业绩。国内外的知名电商,如亚马逊、淘宝、京东等公司,都在推荐系统领域投入了大量研发力量,也在大量招收相关的专业人才。量身定制打造的电商推荐系统项目,就是以经过修改的中文亚马逊...
原创
发布博客 2019.07.23 ·
761 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

学习笔记(01):大数据项目实战电商推荐系统-03_电商推荐系统_项目系统设计(中)...

本教程为官方授权出品 如今大数据已经成了各大互联网公司工作的重点方向,而推荐系统可以说就是大数据最好的落地应用之一,已经为企业带来了可观的用户流量和销售额。特别是对于电商,好的推荐系统可以大大提升电商企业的销售业绩。国内外的知名电商,如亚马逊、淘宝、京东等公司,都在推荐系统领域投入了大量研发力量,也在大量招收相关的专业人才。量身定制打造的电商推荐系统项目,就是以经过修改的中文亚马逊...
原创
发布博客 2019.07.23 ·
874 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Sqoop 日期字段导出报错

想用sqoop 把导入到hive的基础表导出到另一个数据库。 Sqoop 导出数据时报如下错误:java.lang.RuntimeException: Can't parse input data: '2018-07-18' at ........org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java...
原创
发布博客 2018.07.18 ·
6330 阅读 ·
1 点赞 ·
1 评论 ·
11 收藏

python数组(list) 求交集、并集、差集

两个集合: a = [1,2,3,4,5,6] b = [3,5,7]1.求交集 方式一: intersection = [i for i in a if i in b] intersection = list(set(a).intersection(set(b))) 结果: [3, 5]2.求并集 union= list(set(a).u...
原创
发布博客 2018.07.03 ·
15233 阅读 ·
7 点赞 ·
1 评论 ·
16 收藏

under replicated blocks 解决办法

ambari 监控页面显示under replicated blocks 显示红色。查了一下发现可以用hadoop fs 的 setrep命令解决这个问题。下面是运行 hadoop fs -help 时,对这个命令的解释-setrep [-R] [-w] <rep> <path> ... : Set the replication level of a fi...
原创
发布博客 2018.06.07 ·
10622 阅读 ·
0 点赞 ·
1 评论 ·
7 收藏

mysql找回root 密码

一台测试服务器是另一个同事装的Mysql,不记得root密码了,所以查了一下如何找回root密码, 实际上是免密登录后修改root密码.操作步骤如下:停止mysql, 我们机器是centos7 systemctl stop mysqld我们的是编译安装的, 执行下面命令: mysqld_safe –skip-grant-tables –user=mysql...
原创
发布博客 2018.05.23 ·
1624 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多