涛之博-CSDN博客

转载 Spark的内存管理模型

https://blog.csdn.net/maketubu7/article/details/81176530

2020-09-07 13:31:13 280

CPE,英文全称为Customer Premise Equipment,直译：客户前置设备,实际是一种接收移动信号并以无线WIFI信号转发出来的的移动信号接入设备，它也是一种将高速4G或者5G信号转换成WiFi信号的设备，可支持同时上网的移动终端数量也较多。CPE可大量应用于农村，城镇，医院，单位，工厂，小区等无线网络接入，能节省铺设有线网络的费用。基于软件自定义网络（Software Defi...

2019-11-15 17:34:09 715

转载 Idea编译jar包

https://www.cnblogs.com/blog5277/p/5920560.html

2019-04-18 15:38:29 5114

原创机器学习算法——k近邻算法

优缺点：原理：一般流程：装入数据代码：from numpy import *import operatordef createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels =['A','B','B','B'] return group,labelsif __nam...

2019-02-27 16:32:11 249

原创设计模式

设计模式的意义：设计模式（Design pattern）代表了最佳的实践，通常被有经验的面向对象的软件开发人员所采用设计模式的种类和分类：共23种设计模式大类为3类：创建型模式（Creational Patterns）结构型模式（Structural Patterns）行为型模式（Behavioral Patterns）设计模式的六大原则1、开闭原则（Open Close P...

2019-02-14 17:23:05 162 1

原创 Python脚本———用于连接远程服务器并执行基本命令

import paramiko# 创建SSH对象ssh = paramiko.SSHClient()# 允许连接不在know_hosts文件中的主机ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())# 连接服务器ssh.connect(hostname='c1.salt.com', port=22, username='...

2019-02-14 15:40:03 7139

转载 ASSIC码表

https://blog.csdn.net/oshan2012/article/details/79070661

2019-01-22 15:40:50 373

转载 Hive参数优化

Hive优化hive.optimize.cp=true：列裁剪hive.optimize.prunner：分区裁剪hive.limit.optimize.enable=true：优化LIMIT n语句hive.limit.row.max.size=1000000：hive.limit.optimize.limit.file=10：最大文件数本地模式(小任务)：需要满足以下条件：...

2018-10-12 09:30:34 767

原创 Hive配置参数解释

hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小，在本地运行（在GateWay运行） truehive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true，当输入文件大小小于此阈值时可以自动在本地模式运行，默认是 128兆。 134217728L...

2018-10-12 09:26:06 676

原创 Linux常用快捷键

Tab这是你不能没有的 Linux 快捷键。它将节省你 Linux 命令行中的大量时间。只需要输入一个命令，文件名，目录名甚至是命令选项的开头，并敲击 tab 键。它将自动完成你输入的内容，或为你显示全部可能的结果。如果你只记一个快捷键，这将是必选的一个。Ctrl + C这些是为了在终端上中断命令或进程该按的键。它将立刻终止运行的程序。如果你想要停止使用一个正在后台运行的程序...

2018-10-10 09:31:58 174

原创磁盘阵列（）

一、定义磁盘阵列（Redundant Arrays of IndependentDrives，RAID），有“独立磁盘构成的具有冗余能力的阵列”之意。磁盘阵列是由很多价格较便宜的磁盘，组合成一个容量巨大的磁盘组，利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。利用这项技术，将数据切割成许多区段，分别存放在各个硬盘上。磁盘阵列还能利用同位检查（ParityCheck）的...

2018-10-08 13:48:04 686

转载 MYSQL存储过程

一、存储过程的定义存储例程是存储在数据库服务器中的一组sql语句，通过在查询中调用一个指定的名称来执行这些sql语句命令.二、使用mysql存储过程原因？我们都知道应用程序分为两种，一种是基于web，一种是基于桌面，他们都和数据库进行交互来完成数据的存取工作。假设现在有一种应用程序包含了这两种，现在要修改其中的一个查询sql语句，那么我们可能要同时修改他们中对应的查询sql语句，...

2018-09-11 14:18:35 193

原创 Mybatis的Mapper配置的高级特殊用法

一、做需求遇到的问题：callOutSubTask中包括callOutTask的对象，当页面展示的时候没有输入，callOutSubTask为null，可以得到所有的callOutSubTask列表的数据，当输入日期，而不输入taskName是不能显示数据，原因出在Mapper.xml中。类callOutTaskpublic class CallOutTask extends Da...

2018-09-06 17:48:29 1673

转载 jquery validation 在触发按钮单击事件进行表单校验和验证通过后发起ajax请求的解决方案

一、需求描述页面提交表单，或传递参数，已经是第二个页面了，不能直接使用普通的submit（）方式提交，表单而是使用click方式进行异步请求得到结果，因此使用Jq的validate进行验证二、解决代码“ //声明一个函数 function validform() { return $(“#form-article-add”).validate({ rul...

2018-09-03 12:06:22 3438

转载 SiteMesh(前端布局框架)一

https://blog.csdn.net/wangxiaoan1234/article/details/77017546

2018-08-08 09:56:15 1325

原创 Shiro Spring 集成（二）

一、与 Spring集成Shiro 的组件都是 JavaBean/POJO 式的组件，所以非常容易使用 Spring 进行组件管理，可以非常方便的从 ini 配置迁移到 Spring 进行管理，且支持 JavaSE 应用及 Web 应用的集成。在示例之前，需要导入 shiro-spring 及 spring-context 依赖，具体请参考 pom.xml。 spring-beans.x...

2018-08-06 11:03:17 181

原创 Shiro相关介绍(一)

一、shiro是什么Apache Shiro 是一个强大易用的 Java 安全框架，提供了认证、授权、加密和会话管理等功能，对于任何一个应用程序，Shiro 都可以提供全面的安全管理服务。并且相对于其他安全框架，Shiro 要简单的多。二、shiro架构介绍Shiro 可以非常容易的开发出足够好的应用，其不仅可以用在 JavaSE 环境，也可以用在 JavaEE 环境。Shiro...

2018-08-06 09:48:35 471

转载 ehcache 缓存

ehcache 缓存使用ehcache

2018-08-02 17:26:49 204

转载 Hiberbnate原理和代码

Hibernatel

2018-08-01 17:45:21 383

原创虚拟机存储空间扩展

一.点击编辑虚拟机设置二.扩展你所要扩展的存储数值三.扩展完成之后就开启虚拟机查看扩展情况1.查看挂在情况以及使用情况[root@n1 ~]# df -h2.查看磁盘的扩展情况[root@n1 ~]# fdisk -l磁盘已从20G扩展到30G 四.删除、添加磁盘分区1.编辑你的磁盘[root@n1 ~]# fdisk /dev/s...

2018-07-20 09:56:31 7114

转载 MR拔高细节

林子大了，什么鸟都有，hadoop集群大了，什么job都有。经常在hadoop集群里发现HDFS中有老多长度为0的part-000XX的文件，一看就知道是job的reduce产生的输出文件，但是由于job做partition时由于分桶函数不够优，或数据本身的偏移比较厉害，而且开发job的人又没有进行这种情况进行处理的经验，于是某些reduce上没有分到任何的数据，成了“空桶”，但是以hadoop目...

2018-06-15 17:52:57 266

原创正则表达式

+runoo+b，可以匹配 runoob、runooob、runoooooob 等，+ 号代表前面的字符必须至少出现一次（1次或多次）。*runoo*b，可以匹配 runob、runoob、runoooooob 等，* 号代表字符可以不出现，也可以出现一次或者多次（0次、或1次、或多次）。?colou?r 可以匹配 color 或者 colour，? 问号代表前面的字符...

2018-06-13 00:23:21 186

原创安装CDH走过的坑

一、明确各个主机的角色1、CDH的主机是指你所有的机器机，及一个IP为一个主机，不能理解为master 2、启动的时候在第一台机器，及你安装数据库的机器，进行启动server，其他的机器依次启动agent。不然的会有你的集群会有很多的cluster，这样就不是一个集群了，彻底违背你的意愿。二、在安装启动的的时候存在安装hive的metastore失败的问题。一直重试但不行。这是因...

2018-05-23 11:57:46 960

转载 Hadoop数据恢复的办法

Hadoop回收站trash，默认是关闭的。需要进行相关的配置进行1.修改conf/core-site.xml，增加<property> <name>fs.trash.interval</name> <value>1440</value> <description>Number of minutes b...

2018-05-17 11:24:29 3204 1

原创 Python学习笔记

Python解析器：解析器：语言只是符号、语法、语义定义及使用规则的集合。使用这些规则编写的程序（就是 Python 程序）并不能被计算机直接执行。解析执行 Python 源程序的程序叫做 Python 解析器（Interpreter），而由解析器解析执行的过程就是 Python 的实现。Python 解析器有几种： –CPython 官方提供的解析器就是 C 语言实现的，所以称之为...

2018-05-03 22:28:33 246

原创 hadoop错误解决

出现错误为：(null) entry in command string:null chmod 0700解决办法：1.启动idea用 2.这时运行如果出现org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z这时就需要修改源码了：idea用ctrl+N输入N...

2018-04-24 16:24:47 368

原创 Shell学习笔记

一、Shell变量1.定义变量要求变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样命名只能使用英文字母，数字和下划线，首个字符不能以数字开头。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用bash里的关键字（可用help命令查看保留关键字）。使用变量： $表示站位符for skill in Ada Coffe Action...

2018-03-31 23:58:32 172

原创 Hive常见优化

一、数据倾斜1、什么是数据倾斜？Hadoop 框架的特性决定最怕数据倾斜•由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点。节点间数据分布不均衡，会造成 map 端每个 map 任务的工作量不同，即 map 端数据倾斜。Map-reduce，把相同 key 提交给同一个 reduce，如果 key 不均衡就会造成不同的 reduce 的工作量不同。以京东首页活动...

2018-03-20 00:48:37 261

原创 Yarn的简单介绍

一、Yarn通俗介绍 Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。可以把 yarn 理解为相当于一个分布式的操...

2018-03-15 00:51:44 39927 7

原创 Scala语言基础

/** * 块表达式 */ val a = 10 val b = 20 val result = { val c=b-a val d=b-c //块中最后一个表达式的值 d } println(result)结果：10 //for循环 for (i &...

2018-03-13 08:54:31 195

原创 Hive一（hive初识）

一、Hive简介 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类 SQL 查询功能。本质是将 L SQL 转换为 e MapReduce 程序。主要用途：用来做离线数据分析，比直接用 MapReduce 开发效率更高。二.、HIve架构1.架构图 2.hive组件用户接口：包括 CLI、...

2018-03-10 23:48:07 243

转载 maven打包方式

[maven的打包方式详解]http://blog.csdn.net/defonds/article/details/43233131

2018-03-06 18:50:48 209

原创 MapReduce工作机制详解

一、MapTask工作机制详细步骤： 首先，读取数据组件 InputFormat （默认 TextInputFormat）会通过 getSplits方法对输入目录中文件进行逻辑切片规划得到 splits，有多少个 split 就对应启动多少个 MapTask。split 与 block 的对应关系默认是一对一。 将输入文件切分为 splits 之后，由 ...

2018-03-02 23:15:19 3550

原创 Strom与HDFS整合出现的错误

原因分析：这是因为在本地上运行Storm与HDFS项目的时候本地没有权限去操作hdfs的目录，而有权限的是linux上的root用户有所有权限，因此需要打开hdfs上的所有权限供代码运行hadoop fs -chmod 777 /foo...

2018-03-01 12:47:59 217

原创 kafkaManager监控工具的安装与使用

第一步：上传压缩包并解压unzip kafka-manager-1.3.3.7.zip -d /export/servers/第二步：修改配置文件application.confkafka-manager.zkhosts="node01:2181,node02:2181,node03:2181"第三步：启动kafkaManager./kafka-manager -Dc...

2018-02-26 00:01:09 469

原创 Kafka的可用性（保证数据不丢失）

问题：如何保证数据的不丢失kafka的ack机制：在kafka发送数据的时候，每次发送消息都会有一个确认反馈机制，确保消息正常的能够被收到如果是同步模式：ack机制能够保证数据的不丢失，如果ack设置为0，风险很大，一般不建议设置为0producer.type=sync request.required.acks=1如果是异步模式：通过buffer来进行控制数据的发送，有两个...

2018-02-25 23:58:59 885

原创 Kafka与flume的整合

第一步：解压flume到servers目录下第二步：配置flume.conf注意：这里的版本为1.8的版本，1.6的版本会配置会有所不同#为我们的source channel sink起名a1.sources = r1a1.channels = c1a1.sinks = k1#指定我们的source收集到的数据发送到哪个管道a1.sources.r1.channel...

2018-02-25 23:55:03 305

原创 Kafka的安装和使用以及配置文件的说明

一、提前安装好zookeeper注意：安装zookeeper之前一定要确保三台机器时钟同步*/1 * * * * /usr/sbin/ntpdate us.pool.ntp.org;zookeeper集群搭建二、三台机器安装卡夫卡集群1.下载kafka安装压缩包 http://archive.apache.org/dist/kafka/2.上传压缩包并解压这里...

2018-02-25 23:50:38 842

原创 linux时间同步命令

同步时间：ntpdate ntp1.aliyun.com

2018-02-25 19:19:59 381

转载懒加载

懒加载模式”又叫“懒汉模式”是指当第一次使用到这个属性时才给这个属性对应的成员变量进行初始化，如果程序还没运行到这个地方就不进行相应的创建和初始化有利于节省资源提高性能。与之对应的还用一种模式叫做“饿汉模式”就是程序一启动就初始化相应的成员变量，不管当时有没有用到先创建并初始化了再说，所以这种模式相对来说不需要程序员考虑那么详细，会耗费一点资源。要知道，如果get方法中不进行懒加载设置（这个...

2018-02-25 13:10:49 194

kafaka-Manager

空空如也