自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 资源 (1)
  • 收藏
  • 关注

原创 通过python实现企业微信公众号链接+图文推送

通过python实现企业微信公众号图文+链接方式的消息推送

2022-11-25 19:49:35 1157 1

原创 运用python实现企业微信群机器人消息推送

通过企业微信的群机器人+python编码将BI报表精准推送到用户手中

2022-11-25 19:17:17 2266

原创 -Hive-4-综合实战

需求求各个区域下最受欢迎的产品的TOP NMySQLcity_info:城市信息 固定的信息一般存储在MySQLproduct_info: 产品信息create table product_info(product_id int(11),product_name varchar(50),extend_info varchar(50));用户行为日志:Hivecreate ...

2019-08-04 21:24:36 186

原创 -Hive-Apache.org(官网)使用手册

hive官网:http://hive.apache.org/

2019-08-04 21:16:29 4758

原创 -Hive-3-基础

Build-in Functionsraw data : jsontext: id,username,age,genderjson: {“id”:1,“username”:“ruozedata”,“age”,2,“gender”:“unknown”}json data ==> hive table ==> sqlcreate table rating_json(json st...

2019-08-04 19:19:58 199

原创 -Hive-2-基础

表只拷贝表结构,不拷贝表数据CREATE TABLE ruozedata_emp2 LIKE ruozedata_emp;show create table xxx(表名);可看到表结构拷贝表数据Create Table As Select (CTAS)create table ruozedata_emp3 as select empno,ename,deptno from ruoz...

2019-08-04 19:17:38 164

原创 -Hive-1-基础+元数据信息

Hive访问Hive的方式:A command line tool and JDBC driverApache社区的顶级项目Hive:facebook 解决海量的结构化日志的统计问题刚开始时是作为Hadoop项目的一个子项目的,后面才单独成为一个项目Hive是构建在Hadoop之上的数据仓库 适合处理离线Hive是一个客户端,不是一个集群,把SQL提交到Hadoop集群上去运...

2019-08-04 19:07:58 203

转载 -大数据入门-2-Hadoo-MapReduce详解

mapreduce是hadoop的计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是我们所需要的结果。我们要学习的就是这个计算模型的运行规则。在运行一个mapreduce计算任务时候,任务过程被分为两个阶段:map阶段和reduce阶段,每个阶段都是用键值对(ke...

2019-07-20 18:20:05 110

原创 -大数据入门-2-Hadoop-YARN资源管理

在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负 责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceManager将某个NodeManager上资源分配给任务(这就是所谓的资源调度)后,NodeManager需按 照要求为任务提供相应的资源,甚至保证这些资源应具有独占性,为任务运行...

2019-07-20 17:58:59 158

原创 -大数据入门-2-Hadoop-.YARN架构设计

ResourceManager(RM):负责对各NM上的资源进行统一管理和调度。将AM分配空闲的Container运行并监控其运行状态。对AM申 请的资源请求分配相应的空闲Container。主要由两个组件构成:调度器和应用程序管理器。调度器(Scheduler):调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系 统中的资源分配给各个正在运行的应用程序。...

2019-07-20 17:39:51 79

转载 -大数据入门-2-Hadoop-split与block的关系

在hadoop中第二种划分是由InputFormat这个接口来定义的,其中有个getSplits方法。这里就有了一个新的不为人熟知的概念:Split。Split的作用是什么,Split和Block是什么关系,下面就可以说明清楚。在Hadoop0.1中,split划分是在JobTracker端完成的,发生在JobInitThread对JobInProgress调用inittasks()的时候;而...

2019-07-20 16:50:47 318

原创 -sql语法-2-部门表

部门表dept部门表(deptno部门编号/dname部门名称/loc地点)create table dept ( deptno numeric(2), dname varchar(14), loc varchar(13));insert into dept values (10, 'ACCOUNTING', 'NEW YORK');insert into de...

2019-07-20 16:44:32 1635

转载 大数据入门-2-Hadoop-小文件有什么危害(hive、spark到hdfs)

1危害:1、NameNode需要的内存大大增大,增加NameNode压力,这样会限制了集群的扩展。2、在HDFS中,小文件的读写处理速度要远远小于大文件3、Hive中,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。Hive中小文件的预防措施有:1.使用Sequencefile作为表存储格式,不要用textfile,在一...

2019-07-20 16:04:56 246

转载 -大数据入门-2-Hadoop-block损坏恢复

公众号,照着敲,手机才能打开,哈哈哈哈小陈子加油哦

2019-07-20 15:57:57 275

原创 ruoze data -第一阶段—高危命令整理

1 rm -rf 强制删除删除文件或文件夹,切记先确认是否真的不需要。除非自己备份一下生产上凡是碰见rm -rf强制删除文件夹的 ,路径一定先判断存在不,不存在 就skip(跳过);存在就rm2 kill -9kill -9 $(pgrep -f xxx)生产上假如非要执行kill杀进程,一定要确认清楚 1.该进程是否真的杀?需求确认清楚,多问问领导和同事。 2.杀的进...

2019-07-20 14:32:29 235

转载 -大数据入门-2-Hadoop-YARN and MapReduce的【内存】优化配置详解

http://blog.itpub.net/30089851/viewspace-2127851/

2019-07-20 13:54:53 111

转载 -大数据入门-2-Hadoop-调优配置详解

YARN的Memory和CPU调优配置详解Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、C...

2019-07-20 13:49:22 136

原创 -大数据入门-2-Hadoop-shuffle

1wc案例过程:map---shuffle---->reduce 19/07/13 19:55:31 INFO mapreduce.Job: map 0% reduce 0%19/07/13 19:55:42 INFO mapreduce.Job: map 50% reduce 0%19/07/13 19:55:43 INFO mapreduce.Job: map 100%...

2019-07-20 13:19:47 204

原创 -大数据入门-2-Hadoop-mapred&yarn常用命令

maprde常用命令[hadoop@hadoop001 bin]$ ./mapred --helpUsage: mapred [--config confdir] COMMAND where COMMAND is one of: pipes run a Pipes job job manipulate Map...

2019-07-20 12:52:21 449

原创 -大数据入门-2-Hadoop-yarn的调度器

FIFO 先进先出Capacity 计算Fair 公平 生产 大部分CDH 动态资源池 放置规则在下图Fair调度器中,从第二个任务提交到获得资源会有一定的延迟,因为它需要等待第一个任务释放占用的Container。小任务执行完成之后也会释放自己占用的资源,大任务又获得了全部的系统资源。最终的效果就是Fair调度器即得到了高的资源利用率又能保证小任务及时完成。file:///C...

2019-07-20 12:32:12 144

原创 -大数据入门-2-Hadoop-课程整理

1.MapReducemap 映射 行数不变reduce 规约 行数变化 示例如MySQL中运用group by分组函数2.版本hadoop1.x 需部署进程 JobTrack TaskTrackhadoop2.x 不需要部署,提交到yarn平台,进行资源 、作业调度。3.概念作业 job application 应用容器:Container...

2019-07-19 16:00:40 163

原创 -大数据入门-2-Hadoop-mr提交到yarn的工作流程

mr在yarn架构设计1.用户向yarn提交job,其中包含application master程序,启动application master的命令等。2.RM为该job分配第一个container,与对应的NM通信,要求它在这个container启动作业的application master。3.application master向applications manager注册,这样用户就...

2019-07-19 15:58:00 314

原创 -大数据入门-2-Hadoop-HDFS =解析整理其常用命令

1 恢复命令[hadoop@hadoop001 hadoop]$ bin/hdfs dfs 这样命令帮助没有Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src&...

2019-07-15 21:41:48 309

原创 -大数据入门-2-Hadoop-HDFS=读写流程

1hdfs读流程 fsdatainpustream[hadoop@hadoop001 hadoop]$ bin/hdfs dfs -cat /examples/output1/part-r-0000019/07/13 16:18:28 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your plat...

2019-07-13 18:14:48 117

原创 -大数据入门-2-Hadoop-HDFS架构,副本放置策略

1.HDFS架构3.1 HDFS 主从架构 3.2 RACK 机架 案例: 一个机架正常是10个服务器 如果带GPU5个的服务器,GPU耗电。 HDFS集群一般10个节点 或30个节点 ,也有100个节点以下。取决于规划。 机架不会让他发挥作用,default机架, CDH安装默认的,方便管理。NN:名称节点...

2019-07-13 15:57:32 268

原创 -大数据入门-2-Hadoop-HDFS详解1

1.block 块以前64m,现在128m 容量规格也可dfs.blocksize: 128m调整为256m,基于生产环境决定。HDFS 适应场景: 大文件存储,小文件是致命的生产上:1.小文件阈值, 自己去看一下,取个中间值。 2.如何合并小文件: 数据未落地到hdfs之前合并,数据已经落到hdfs,sp...

2019-07-13 15:56:44 239 1

原创 -大数据入门-2-Hadoop-部署yarn,跑案例

1MapReduce:计算 是jar包(java 高级班) 企业不用 代码复杂 hive sql/…是不需要部署的 运行在yarnYarn: 资源和作业的调度 是需要部署的

2019-07-13 15:09:30 194

转载 Linux内核OOM保护机制(查看系统日志)

kill:参考文献:转载:https://www.cnblogs.com/felixzh/p/9238274.html转载 : https://blog.csdn.net/zgrjkflmkyc/article/details/77645570人工维护或进程在Linux中使用内存最大 时,保护机制自动kill我们应该估算系统内存,合理分配解决方法:赶快升级,把不重要的服务停了,把内存加...

2019-07-12 02:52:31 1131

转载 -sql语法-2-拉垮MySQL服务怎么解决

select * from emp;生产上这样拉垮服务器如何解决生产上 不要犹豫 找DBA或者运维同学赶紧登录机器mysql> show processlist;+------+-------+----------------------+-----------+---------+------+-------+------------------+| Id | Use...

2019-07-12 02:02:18 84

转载 -大数据入门-1-Hadoop-ssh机器之间无密码通信

http://blog.itpub.net/30089851/viewspace-1992210/http://blog.itpub.net/30089851/viewspace-2127102/

2019-07-12 01:42:12 127

原创 -大数据入门-2-Hadoop

1启动hdfs[hadoop@hadoop001 ~]$ cd app/hadoop[hadoop@hadoop001 hadoop]$ lltotal 84drwxr-xr-x 2 hadoop hadoop 4096 Jul 9 17:34 bindrwxr-xr-x 2 hadoop hadoop 4096 Mar 24 2016 bin-mapreduce1drwx...

2019-07-12 01:14:51 329

转载 -大数据入门-2-关于Linux系统30天清理/tmp/文件夹

https://blog.csdn.net/zhidetian/article/details/51906335

2019-07-11 15:29:02 337

原创 -大数据入门-1-Hadoop-hdfs伪分布式部署

Hadoop 大象广义: 以apache hadoop软件为主的生态圈(hive sqoop spark flink…)狭义: apache hadoop软件官网APAche:www.apache.orgCDH:http://archive.cloudera.com/cdh5/cdh/5/1.x 企业不用2.x 主流3.x 很少敢用 坑 只能自己踩但是CDH(www.cloude...

2019-07-11 13:14:51 1024

原创 -sql语法-2-初涉&数据质量管理

补数据: select * from t where bid is null 拿到a表字段的数据 拼接sql插入数据仓库删数据: select * from t where aid is null --> bid --delete 语句大数据很多都是做数据仓库.底层但是数据仓库往往会有问题,比如需要把MySQL数据同步到数据仓库,中间有可能丢数据 ...

2019-07-11 13:10:10 507

原创 -SQL—语法常见的抛错

抛错列的数量和值得数量不符SQL 错误 [1136] [21S01]: Column count doesn't match value count at row 1 SQL 错误 [1136] [21S01]: Column count doesn't match value count at row 1 SQL 错误 [1136] [21S01]: Column count d...

2019-07-11 12:11:07 195

原创 -sql语法-2-

生产上比较标准的查法:select * from ruozedata.studentinfo; ## 查询所有列select num,name,age from ruozedata.studentinfo; ## 查询指定列排序 order by 滞后asc升序desc降序num后面没写默认升序select ...

2019-07-05 02:40:55 129

原创 大数据 环境搭建

1配置需求虚拟机:VMware Workstation操作系统:CentOS-6.5-x86_64-bin-DVD1.iso2环境搭建(1)虚拟机安装点击创建新的虚拟机自定义,下一步默认的wordstation10.0,下一步选择稍后安装操作系统,下一步客户操作系统选择:Linux(L),版本:centOS 64位,下一步虚拟机名称:Hadoop002,存储位置选...

2019-07-02 23:03:41 328

原创 -sql语法-1-

1.字段类型一 数值类型*整数:int 整数+ long 长整数小数float 单精度double 双精度decimal 小数值 和钱挂钩的,用它字符串char 定长字符串 0-255字节 abc–》abc255 自动补全,造成资源浪费varchar 'abc’变长字符串 0-65535字节 abc–》abc 来多少就多少位置,资源最大化利用text ...

2019-07-02 19:09:00 94

原创 -mysql-1

1mysql命令mysql 直接回车 空账号空密码mysql -uroot -p 回车 再回车 使用这种history中不显示密码mysql -uroot -p -hlocalhost ##机器名称登录2三句话create database ruozedata; 数据库grant all privileges on ruozedata.* to ruoze...

2019-06-30 23:35:20 125

原创 -mysql-部署1

1.Upload tar

2019-06-30 12:56:51 227

SQL1.xmind

数据库基础知识与SQL的思维导图 嗯,可以看看 复盘再学习总结的组织框架 也许方便后续的记忆和实操

2019-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除