Change the World by Program

每个人都翅膀但是不会代表每个人都可以学会飞翔

Mysql 中的 case when 与HIVE 中 case when 的漏斗模式 区别

''' ,CASE WHEN social_credit_code IS NOT NULL THEN '10-统一社会信用代码' WHEN organization_structure_code IS NOT NULL THEN '20-组织机构代...

2018-10-29 16:58:38

阅读数 84

评论数 0

Pycharm 激活码 激活日期到 2020.9月

Pycharm 激活码 激活日期到 2020.9月 347DQLVO7L-eyJsaWNlbnNlSWQiOiIzNDdEUUxWTzdMIiwibGljZW5zZWVOYW1lIjoi5b285bK4IHNvZnR3YXJlMSIsImFzc2lnbmVlTmFtZSI6IiIsImFzc2ln...

2018-10-15 10:03:35

阅读数 7816

评论数 6

记录自己半年的感悟

新公司入职大半年了多了,颇有感悟。算是给自己的一点点总结吧。总结一下自己的技术、自己的感悟。顺便再吐槽一下、然后给自己制定另外一个目标。总之目的只有一个就是希望生活越来越好…. 技术篇 Python 部分 1、Python 基础 2、Flask 框架 、JINJA 模板、邮件的...

2018-09-11 15:20:22

阅读数 184

评论数 1

python - mysql insert语句问题

1、python 数据插入问题 par=[] for a in params: if type(a) == list: par.append(‘“str(a)”’) else...

2018-02-11 16:40:07

阅读数 2579

评论数 0

互联网金融风控模型

一、市场调研 目前市面主流的风控模型 1、互联网金融前10名排行榜(数据截止日期2017-09-12) 互联网金融公司排名分别是蚂蚁金服、陆金所、京东金融、苏宁金融、百度金融、腾讯理财通、宜信、钱大掌柜、万达金融和网易理财。 1.1 蚂蚁金服 1.1.1 大数据技术...

2018-02-08 12:00:22

阅读数 21237

评论数 3

新公司-心得

之前一直都是在分享技术,专心写blog.研究各种主流的大数据框架.但是换了一家新公司以后,发现之前用的技术都用不上.也就一直没有更新. 其实在2018我最开心的事情就是来到一个自己满意的公司,做着自己喜欢的事情.虽然都是9点以后下班,有的时候也会10点每天晚上到家最早都是10点. 然后我从来没有...

2018-02-07 11:38:33

阅读数 231

评论数 0

(8) Hadoop-工作流调度器azkanban

有个StreamSet工具可以使用 看着还挺不错的!工作流调度概述 通常来说一个完整的数据采集流程都是各个单元组成前期的数据采集Flume或者linux脚本crontab,数据的预处理(MR),在处理后的数据导入到HIVE仓库,将多个表的数据进行join处理生成明细表,根据业务需求生成最后的数据报...

2017-12-19 00:11:16

阅读数 291

评论数 0

(4) Hadoop-MapReduce计算模型

1. MapReduce计算模型理解 因为mapreduce是大型分布式计算框架 ,出先两个关键词 1.分布式 2.计算框架。 可以从名字中解读就是运行在不同服务器上面的负责计算处理数据的框架。 关于MapReduce就是别人的博客出现最多的关键词就 “分而治之” ,分就 想个大的问题 分成若干小...

2017-12-19 00:10:44

阅读数 113

评论数 0

(3) Hadoop-HDFS分布式文件系统

1. HDFS入门1.1 HDFS基本概念 HDFS就是一个分布式文件系统,既然是文件系统就会有树形结构,既然是分布式就会涉及到集群的概念。所有文件系统都是用来存储数据的,而它的特点就是用来处理大数据和存储大数据。 1.2 HDFS解决的问题那些 故障的检测和自动快速恢复 (一旦计算失败会恢复到...

2017-12-19 00:07:05

阅读数 169

评论数 0

MapReduce 原理深度剖析

一 . MapReduce 工作机制详解 1. MapTask工作机制2. ReduceTask工作机制3. Shuffle 机制 Shuffle 就是从map的输出 到 Reduce阶段的输入 在这一过程中经历了OutPutCollection阶段的根据HashPartition的分区...

2017-12-19 00:04:05

阅读数 95

评论数 0

(12) Hadoop 升级技能

NameNode 元数据管理 (重点)0. fsimage/edits edits 存储的是对HDFS操作记录 fsimage 存储的是hdfs上面文件信息 nameNode 存储的数据的元数据信息,datanode的节点状态,block块的状态 1. 元数据目录 元素据目录所...

2017-12-19 00:02:41

阅读数 103

评论数 0

hadoop汇总

Hadoop流程框架 数据采集分两种,1.web服务器日志信息采集(通过埋点手段);2. 使用Flume工具将数据落地到HDFS上面 数据预处理通过MR Storm Spark等计算框架将数据日志信息进行过清洗 导入HIVE仓库清理后的数据导入到HIVE仓库中 ETL 对数据进行分析、统计,生成...

2017-12-18 23:56:36

阅读数 122

评论数 0

HIVE汇总

Beeline version 1.2.1 by Apache Hive beeline> ! connect jdbc:hive2://node-1:10000HIVE 优化 (重点别不当回事)方法一 通过设置 set hive.groupby.skewindata = false...

2017-12-18 23:54:19

阅读数 962

评论数 0

scala - 基础知识

1.def 定义的是一个方法,用下划线可以转换为方法 2.window 换行符是/r/n linux /n 《逐云》Scala 概述 2.11.8 优雅,速度快,融合hadoop生态圈。未来或许会替代MR,个人认为不可能。 最关键的就是 面向对象编程 和 面向函数编程 Windows 安...

2017-11-28 09:41:16

阅读数 147

评论数 0

(1) Hadoop-网站流量日志数据自定义采集

数据与业务结合 当想到业务 与 数据结合 , 数据 与 业务结合 当看到业务的时候 必须要联想到对应的技术点—- 这才是学习大数据的核心内容 科技带来的发展(1) 分布式系统分布式项目 CDN 动态资源服务器 nginx 静态资源服务器 (2) 大数据分析系统1. Web访问日志 日志是...

2017-10-30 20:13:15

阅读数 2101

评论数 0

(2) Hadoop-集群搭建 HDFS入门

1.Hadoop 介绍概述 用java编写开源框架,允许使用简单的API在大量的 计算机集群上 针对 大型数据集 进行分布式处理 。 Hadoop 核心组建 (狭义) HDFS (分布式文件系统):针对海量数据的存储 YARN (作业调度,集群资源管理框架) : 解决资源任务调度,资源包括内存...

2017-10-30 18:41:01

阅读数 153

评论数 0

基础加强 -zookeeper

Zookeeper1. 概述 zookeeper是分布式协调服务,从本质上来说也是一个小型的分布式文件存储系统 ,有自己的树形目录结构,可以用来存储,监听,修改整个集群的状态。诸如统一命名服务、分布式配置管理、分布式消息队 列、分布式锁、分布式协调等功能。 在dubbox集群中 作为dubbox...

2017-10-29 13:56:28

阅读数 193

评论数 0

基础加强-vmware-linux-shell

Vmware 、Linux虚拟网卡概念 一台电脑上面可能有一个或者多个网卡,当创建一台虚拟机的时候就会有自动创建20虚拟交换机,VMnet0、VMnet1、VMnet8三中交换机,分别对应VMWare三种网络模式,虚拟网桥(Bridge)、虚拟DHCP服务器、虚拟NAT服务器 虚拟交换机概念 虚拟...

2017-10-29 13:53:28

阅读数 179

评论数 0

基础加强-Linux时间同步

时间同步 CentOs说明:由于大数据中,集群对时间要求很高,所以集群内主机要经常同步时间(包括时区的同步)。 常用的手动进行时间的同步date -s “2017-03-03 03:03:03” 或者网络同步:yum install ntpdatentpdate cn.pool.ntp.org 还...

2017-10-28 16:43:35

阅读数 372

评论数 0

EditPlus 远程修改服务器的文本文件

我们可以使用 EditPlus 远程修改服务器的文本文件的内容,更加便捷(1)在菜单选择 FTP Settings(2)点击 ADD 按钮(3)输入服务器信息(4)点击高级选项按钮(5)选择 SFTP 端口 22(6)OK 。完成配置 连接

2017-10-20 18:22:41

阅读数 1573

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭