自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Saint

一个有技术信仰的人

原创 spark处理hive数据排序问题

新入坑数据挖掘,从一段spark入门级数据处理代码开始。 涉及语言Scala、Sql,并涉及将DataFrame转换为Rdd,实现的是从hive读取数据,并根据字段进行分组排序的功能,代码如下: val df_sr = spark.sql(s""&quo...

2019-01-30 16:22:10

阅读数 164

评论数 2

原创 大数据研发工程师面试题记录

1、10进制转2进制 def tansform(num): s=[] if num<0: return "-"+transform(abs(num))) while True: num,remainde...

2018-09-13 13:24:49

阅读数 1679

评论数 0

原创 常用排序算法python实现

一直捋不清几个排序,特意花点时间理解一下,有码有字有动图,明天补完 1、插入排序: 不断将待排序中元素一个一个插入一个有序序列中(一般初始为待排序序列中的第一个元素,且待排序列表和有序列表其实在一个列表),最终得到有序序列。 如图: 实现代码...

2018-08-26 00:48:26

阅读数 139

评论数 0

原创 hdfs数据迁移至hbase(python2.7版本)

惯例直接上详细注释的代码。 任务是将HDFS上多个需要重新编码的文件合并后写入HBASE。 python2.7完成,用3的话可能需要改hbase.py的一些源码。 # -*- coding: utf-8 -*- """ Created on Thu Aug ...

2018-08-21 16:47:54

阅读数 302

评论数 0

原创 阿里妈妈关键词排序笔试题

说在前面: 两个小问题:1、没处理处理编码问题,建议使用python3,这将不是个问题; 2、结果没有排序输出; 其他完全ok,有时间再完善吧。 题目: 阿里妈妈广告直通车是一个基于关键词(比如,“连衣裙”,“手机”)的竞价营销平台,商家在后台可以设置参与竞价的关键词。已知历史上所有...

2018-08-15 12:31:12

阅读数 437

评论数 0

原创 python3将mongodb数据迁移至mysql

新鲜的,IP隐匿,直接贴出代码: # -*- coding: utf-8 -*- """ Created on Tue Aug 14 14:00:55 2018 @author: admin """ from pymongo im...

2018-08-14 15:40:56

阅读数 757

评论数 0

原创 python版MR任务完整过程(附代码)

将近期写的MR程序及过程记录下来。 简单介绍下环境: hadoop2.6.4 hadoop-streaming-2.6.0.jar 线上python2,线下python3都可以用 首先放上需要的代码,定制python代码,很爽 mapper.py #!/usr/bin/pytho...

2018-08-13 14:56:53

阅读数 1462

评论数 0

原创 python3操作HDFS

直接贴代码 # -*- coding: utf-8 -*- """ Created on Thu Aug 9 09:09:56 2018 @author: admin """ from...

2018-08-09 10:30:02

阅读数 1892

评论数 0

原创 python3字符串字节转码相关问题

这得从一张图片说起: 就长上面这个样子,对了,不能正常显示的是中文。 身为老司机,一看就是字符编码的问题。 然后果断检查输入数据源什么编码,然后自信的.decode()。 然而并没有什么卵用,我记错了?测试一下: 没毛病啊,为毛不行? 去冲冲浪详细了解下是什么鬼: 首先了解下...

2018-08-03 12:04:36

阅读数 594

评论数 0

原创 YARN工作全解

首先放张YARN官网的图便于理解: 讲一下YARN的优点(网上一搜一箩筐): 首先要提一下MapReduce1,它只包含JobTracker(协调在集群上运行的所有作业)和TaskTracker(运行分配的任务并定期向 JobTracker 报告进度),主要存在这样几个问题: JobT...

2018-07-20 22:58:50

阅读数 137

评论数 0

原创 场景下理解维度表,事实表,中间表

今天详细介绍一下数据仓库中的维度表,事实表与中间表: 什么是数据仓库? 数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。提数据仓库不得不提一下关系型数据库,关系型数据库主要是用来支撑即时操作,对数据库的性能和质量要求都比较高,通常设计操作型数据库的都要遵循3F范式的...

2018-07-18 18:31:05

阅读数 3747

评论数 0

原创 记一次实际sqoop业务的理解(注释多)

最近梳理一项sqoop业务,整理如下(尽可能详细注释,表名,IP,账户密码,以及实际代码都做了处理,当作demo看完全可以的,可运行): 1、mysql -> hive(创建任务->执行任务) 创建用户任务脚本createUserJob.sh内容如下: - ...

2018-07-18 16:56:08

阅读数 272

评论数 0

原创 win10下kettle7.1连接hive1,mysql完整实例

最近想要在windows10上使用kettle做数据ETL,首先安装配置作为新手也是踩坑无数,主要环境版本目前不是本人能够修改的,而kettle这东西对版本对应要求又比较严格,虽然只是连接就已经踩坑无数,主要问题集中在连接hive的时候,下面看图说话: 测试环境版本: hadoop-2.6.4...

2018-07-11 10:03:30

阅读数 3004

评论数 2

转载 这么经典全面的java岗面试题不了解下?

Java面试的一些题目,个人觉得很经典转过来了,答案准备自己找,保证质量所以贴个原创不断更新,当然也可以去原文找。 题目: Java基础: 面向对象和面向过程的区别 Java的四个基本特性(抽象、封装、继承,多态) Overload和Override的区别 构造器Construct...

2018-07-06 21:53:23

阅读数 440

评论数 0

原创 查看MySQL,HDFS空间占用情况

查看所有数据库大小(通用) select TABLE_SCHEMA, concat(truncate(sum(data_length)/1024/1024,2),' MB') as data_size, concat(truncate(sum(index_length)/10...

2018-07-05 14:34:57

阅读数 1107

评论数 0

转载 事务4种隔离级别实例解析

数据库事务的隔离级别有4种,由低到高分别为Read uncommitted 、Read committed 、Repeatable read 、Serializable 。而且,在事务的并发操作中可能会出现脏读,不可重复读,幻读。下面通过事例一一阐述它们的概念与联系。 Read uncomm...

2018-07-04 09:44:28

阅读数 192

评论数 0

原创 zoopkeeper工作机制及原理

1、什么是zoopkeeper ? ZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务。 2、为什么要使用zoopkeeper? (顺序一致性)从同一个客户端发起的事务请求,最终将会严格按照其发起顺序被应用到zookeeper中; (原子性)所有事物请求的处理结...

2018-07-03 19:42:02

阅读数 1733

评论数 0

转载 数据库优化大全

数据库优化神文,全而细:转载不便点击这里链接在这里: 数据库SQL优化大总结1之- 百万级数据库优化方案

2018-07-02 14:17:29

阅读数 81

评论数 0

原创 sqoop将hive中数据导入mysql(实例讲解)

假设这样一个场景: 数据已经导入hive(hive实例讲解看这里),现在要把hive中数据库导入出到(mysql)关系型数据库中,这里使用的工具是sqoop(sqoop详细讲解看这里)。 该怎么处理呢? 首先,我们需要的是在mysql中建立对应的表,数据字段类型与hive数据表中要导...

2018-07-02 13:26:08

阅读数 1307

评论数 0

原创 脚本执行命令实例详解

使用linux不免要用到执行脚本,比如一个文件a.sh,我们有时会见到用. a.sh去执行,有时见到用sh a.sh去执行,或者bash a.sh,或者source a.sh,那么这两种执行脚本的方式有什么区别呢?这个问题也困惑了本人很久,今天总结一下: 首先考虑这样子一种情况: 我的作用文件...

2018-07-02 10:33:49

阅读数 4885

评论数 0

原创 hive数据处理及hdfs文件操作

写在前面: 本想使用hive调用python脚本实现统计分析movielens数据,但是最后一步调用脚本的地方不成功没找到问题所在,于是将过程中的一些经验写出来,非常详尽,对新手来说应该挺有用的。 另外调用脚本的程序和报错我会贴出来,应该是脚本写的有问题,后面找到问题或者有人告诉...

2018-06-28 15:02:35

阅读数 5954

评论数 0

原创 sqoop实例操作及详细参数解析

1、MySQL数据库中的数据导入到Hadoop的HDFS: 使用命令: $ sqoop import $ sqoop-import 示例: $ sqoop import \ --connect jdbc:mysql://localhost/userdb \ ...

2018-06-27 17:56:29

阅读数 3109

评论数 0

原创 Flume详细解析

1、Flume简介   Apache flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统,用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储(如文本、HDFS、Hbase等)。   其使用不仅仅限于日志数据聚合。因为数据源是可定制的(内置Avro,T...

2018-06-27 15:19:52

阅读数 419

评论数 0

原创 kafka工作原理介绍

两张图读懂kafka应用:Kafka 中的术语 broker:中间的kafka cluster,存储消息,是由多个server组成的集群。 topic:kafka给消息提供的分类方式。broker用来存储不同topic的消息数据。 producer:往broker中某个topic里面生产数据。 c...

2018-06-27 11:55:56

阅读数 37652

评论数 3

原创 centos7下完全式hadoop集群搭建

初入数仓坑,搭建hadoop集群折腾了几天险些让我崩溃,好歹是让我看到了结果: 当然虽然过程坑了点耗费了相当心力,但好处是对配置的理解更明白了些,当然流程更是烂熟于心了。下面就开始总结吧:免密通信就不提了需要的话可以直接戳http://blog.csdn.net/qq_29186199/arti...

2017-11-08 17:44:02

阅读数 325

评论数 0

原创 hadoop服务器节点间免密通信图文过程

配置hadoop各节点之间免密通信时候,虽然有教程,但还是花费了很多时间,不过做过很多次之后似乎也更加顺手了,理解也更清晰了。 在虚拟机上配置玩的,所以全部不打码了: 首先进入账户主目录: 1、我直接用的root(不建议):cd ~ 2、生成密匙对:ssh-keygen -t rsa 3...

2017-11-02 19:37:36

阅读数 241

评论数 0

原创 数据库三大范式以及各种键值

在关系型数据库中建立科学的,规范的的数据库是需要满足一些规范的来优化数据数据存储方式就可以称为范式。 直接进入主题: 三大范式: 第一范式:当关系模式R的所有属性都不能在分解为更基本的数据单位时,称R是满足第一范式的,简记为1NF(满足第一范式是关系模式规范化   的最低要求,否则,将有很多基...

2017-10-31 21:35:13

阅读数 1109

评论数 0

转载 为普通用户赋予sudo权限(Linux)

sudo功能的配置文件一般在这里:/etc/sudoers,可以使用visudo编辑,好处是如果规则写的不符合要求能提示你,坏处是调出的是nano编辑器,甚为不顺手。而且/etc/sudoers的配置文件的注释里也说明了,不建议直接修改/etc/sudoers,而是通过在/etc/sudoers....

2017-10-29 21:10:20

阅读数 524

评论数 0

原创 centos7下postgresql9.6安装

1、查看数据库是否已安装:rpm -qa | grep postgres命令查询 2、若已经安装,rpm -e 命令卸载,或者yum erase postgresql*彻底扫净数据库 rpm -e postgresql95-contrib-9.5.9-1PGDG.rhel7.x86_64 po...

2017-10-27 19:34:07

阅读数 1156

评论数 0

原创 centos7下解压缩与跨服务器传输文本那些事儿

1、几个查询软件是否安装的命令: 查看rpm -qa 是查看该软件是否被安装  grep和find是查看文件位置 centos7查看ip: ifconf -a 2、跨服务器文件传输: scp是secure copy的简写,用于在Linux下进行远程拷贝文件的命令, scp [参数] [...

2017-10-26 11:25:01

阅读数 163

评论数 0

原创 那些最小化centos7安装图形化界面的坑

环境:虚拟机下CentOS7: 一、安装图形化界面、 yum -y groupinstall "GNOME Desktop" (双引号是必须的),早版本中可能是这个名字"GNOME Desktop Environment",使用yum grouplist可...

2017-10-22 20:12:12

阅读数 7499

评论数 2

提示
确定要删除当前文章?
取消 删除