自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 【Bash】多行字符串赋值给变量

将JSON串赋值给变量xIFS='' read -r -d '' x <<"EOF"{ "hello": "world", "test": 1}EOFecho $x

2019-10-29 22:30:26 5931

转载 【转】Redis在windows下安装与配置

https://www.cnblogs.com/lezhifang/p/7027903.html一、安装Redis1、Redis官网下载地址:http://redis.io/download ,下载相应版本的Redis,在运行中输入cmd,然后把目录指向解压的Redis目录。2、启动服务命令redis-server redis.windows.conf,出现下图显示表示启动成功了。...

2019-04-05 18:19:02 212

转载 【转载】Kafka相比于HDFS的优势

原文:https://blog.csdn.net/lin_wj1995/article/details/714225071、实时性:hdfs的实时性没有kafka高。2、消费量的记录:hdfs不会记录你这个块文件消费到了哪里,而基于zookeeper的kafka会记录你消费的点。3、并发消费:hdfs不支持并发消费,而kafka支持并发消费,即多个consumer.4、弹性且有序:当数...

2019-04-02 22:53:24 554

原创 Hive 求学生成绩的最好课程(课程名+分数)、最差课程(课程名+分数)、平均分

题目描述有一张hive表,表名stdent_score,包含两列,分别是学生姓名name(类型string),学生成绩score(类型map<string,int>),成绩列中key是课程名称,例如语文、数学等,value是对应课程分数(0-100),请用一个hql求一下每个学生成绩最好的课程及分数、最差的课程及分数、平均分数。表结构create table student_sc...

2019-03-27 21:34:21 1952 2

原创 Redis持久化失败,MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist o

Redis出现无法持久化的异常具体报错信息如下:MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk. Commands that may modify the data set are disabled. Please check Redis logs f...

2019-02-25 16:49:43 399

转载 【转载】DStream 中有几个RDD ?

最原始:https://blog.csdn.net/jiangwlee/article/details/51492507转载:https://blog.csdn.net/WangJinLong_cu/article/details/84145973转载的文章中更明确地说明了结论。

2019-02-24 21:49:31 830

原创 Java版结巴分词自定义词库

Java版结巴分词项目地址:https://github.com/huaban/jieba-analysis1. 加载依赖使用Maven构建项目&lt;dependency&gt; &lt;groupId&gt;com.huaban&lt;/groupId&gt; &lt;artifactId&gt;jieba-analysis&lt;/artifactId&gt; &l...

2019-01-03 18:28:23 11662 3

原创 Hive动态分区

DynamicPartitionsHive动态分区 参数配置及语法HIVE动态分区参数配置1. 修改配置-- 开启动态分区,默认开启set hive.exec.dynamic.partition=true;-- 严格模式要求只少有一个分区字段是指定值的set hive.exec.dynamic.partition.mode=nonstrict;-- 一个DML操作可以创建的...

2018-12-21 19:10:47 617

转载 Hive注释中文乱码

hive1.2.1 表中comment 中文乱码解决办法将元数据库中Comment列转换为UTF-8编码ALTER TABLE `COLUMNS_V2` CHANGE `COMMENT` `COMMENT` varchar(256) CHARACTER SET UTF8 COLLATE utf8_general_ci DEFAULT NULL;修改配置文件hive-site.x...

2018-12-19 17:22:22 126

转载 MySQL启用事件调度

转载 mysql 服务器启用event_scheduler查询计划事件状态SHOW VARIABLES LIKE 'event_scheduler'开启或关闭方式方式一:修改配置文件在 /etc/my.cnf(没有则创建)中添加[mysqld]event_scheduler=1配置后重启服务方式二:脚本-- 开启SET GLOBAL event_scheduler...

2018-12-19 14:21:26 661

原创 Zeppelin连接Hive

1. 修改JDBC解释器配置2. 添加依赖

2018-12-17 17:02:00 2261

原创 Azkaba 获取昨日日期

参考: azkaban作业参数使用介绍在作业调度里,经常需要用到时间参数,比如第二天凌晨去跑昨天的数据,这时就会用到昨日的日期。例子如下:year=${azkaban.flow.start.year}month=${azkaban.flow.start.month}day=${azkaban.flow.start.day}# 结果: yyyy-MM-dd格式,可以按照自己的需求拼...

2018-12-11 17:45:06 2420 2

原创 【Azkaban】 Free memory amount minus Xmx (?? - 0 kb) is less than low mem threshold (3145728 kb)

Azkaban 启动任务后一直处于Runnning状态,出现错误如下:[SystemMemoryInfo] [Azkaban] Free memory amount minus Xmx (2802856 - 0 kb) is less than low mem threshold (3145728 kb), memory request declined.原因:Azkaban要求必须有3GB的...

2018-12-11 16:15:29 648 1

原创 【Hive】毫秒时间戳格式化

1. 除以1000,再格式化select from_unixtime(cast(server_time/1000 as bigint), 'yyyy-MM-dd') datefrom access_log;2. 字符串切割掉后3位,再格式化select from_unixtime(cast(substring(server_time, 1, 10) as bigint),'yyyy-MM...

2018-12-07 22:29:03 14457

原创 IDEA Java代码自动转Scala代码

1. 复制-自动转换从Java源文件复制到Scala源文件中,会弹窗提醒,点确定就转了。注意:如果设置弹窗不在提醒,并默认为Java到Scala自动转换,可以在下图所示的位置取消默认转换。2. 快捷键转换在希望转换为Scala代码的Java源文件中,点击菜单栏上的Refactor,接着选择Convert to Scala,也可以直接使用快捷键Ctrl + Shift + G进行转换。...

2018-12-07 21:18:08 6704 1

原创 Scala自定义数据库连接池及工具类

DBUtil.scalaimport java.sql.{Connection, DriverManager, PreparedStatement, ResultSet, Statement}import java.util.concurrent.{BlockingQueue, LinkedBlockingQueue}/** * JDBC 工具类 * @author Created...

2018-12-06 17:22:22 2013 2

转载 【转载】史上最详细git教程

https://blog.csdn.net/u010839779/article/details/81177429

2018-12-01 11:35:44 282

原创 Spark算子总结

Spark 算子RDD支持两种类型的算子, transformation (从现有的数据集创建新的数据集)和 action (从数据集上运行计算后将值返回到驱动程序)transformation算子并不会立即进行计算,只记录依赖于哪个数据集,仅当需要将结果返回驱动程序时才进行计算转换(即遇到action算子)。这种设计使Spark能够更有效地运行 。默认情况下,每次对其执行操作时,都可以重新...

2018-11-08 21:32:28 1236 1

原创 Standalone下Spark配置HA(High Availablity)

Standalone下Spark配置HA(High Availablity)http://spark.apache.org/docs/1.6.3/spark-standalone.html#high-availability在默认情况下,Standalone的集群调度对Worker具有容错性,因为当Worker节点崩溃后可以将Application移动到其他可用节点。但是调度程序依靠Mas...

2018-11-01 14:51:35 214

原创 安装HWI(Hive Web Interface)

安装HWI(Hive Web Interface)1. 下载源码包https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-src.tar.gz2. 解压源码包tar -zxvf apache-hive-1.2.2-src.tar.gz3. 将源码包中的HWI打包成Warcd apach...

2018-10-31 23:22:46 323

原创 【机器学习】逻辑回归——数学原理推导

以逻辑回归的二分类模型作出如下推导:1. 定义在线性回归上套一层sigmoid函数g(z)=11+e−z g(z) = \frac{1}{1 + e^{-z}} g(z)=1+e−z1​y=hθ(x)=g(θTx)=11+e−θTx=11+e−(θ0+θ1x1+θ2x2+...+θnxn) y = h_\theta(x) = g(\theta^Tx) = \frac{1}{1 + e^{-...

2018-10-17 16:40:54 1333

原创 【机器学习】线性回归——数学原理推导

1. 定义y=θ0+θ1x1+θ2x2+...+θnxn y = \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n y=θ0​+θ1​x1​+θ2​x2​+...+θn​xn​2. 误差函数y(i)=θTx(i)+ϵ(i) y^{(i)} = \theta^Tx^{(i)} + \epsilon ^{(i)} y(i)=θTx(...

2018-10-16 19:18:53 603 1

原创 HBase学习笔记

文章目录HBase1. 简介2. 工作机制3. 环境搭建4. 使用4.1 Shell操作4.2 Java API 操作HBase1. 简介HBase是Hadoop Database,是一个分布式的、可扩展的大数据存储仓库。当需要随机访问数据、实时的读写数据时使用。HBase是No-SQL数据库。2. 工作机制读写流程HMaster, HRegionServer两个特殊的表...

2018-10-08 20:47:58 181

原创 Flume学习笔记

文章目录Flume1. 简介2. 机制3. 环境搭建4. 使用4.1 支持的Source、Sink、Channel4.2 约定别名4.3 范例FlumeFlume 1.8 用户指南1. 简介Flume是一个用于有效地从许多不同的源收集,聚合和移动大量日志数据到统一的数据存储中的,分布式、可靠且可用的系统,。Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume...

2018-09-27 11:36:30 222

原创 ZooKeeper 学习笔记

文章目录ZooKeeper1. 简介2. 应用场景2.1 数据发布与订阅(配置中心)2.2 负载均衡2.3 命名服务(Naming Service)2.4 分布式通知/协调2.5 集群管理与Master选举2.6 分布式锁2.7 分布式队列3. 环境搭建(zookeeper-3.4.10)3.1 完全分布式3.2 伪分布式4. 选举机制符1:学习资料附2:遇到的问题Cannot open chan...

2018-09-18 09:48:19 116

原创 Sqoop 学习笔记

Sqoop 学习笔记1. 简介2. 安装3. 数据导入(import)3.1 指令参数解析3.2 从MySQL导入至HDFS3.3 从MySQL导入至Hive4. 数据导出(export)4.1 指令参数解析4.2 从HDFS导出至MySQL5. Job5.1 创建Job5.2 查看所有Job5.3 查看一个Job详情5.4 执行Job5.5 删除Job...

2018-09-12 20:45:14 236

原创 Hive 学习笔记

Hive 学习笔记1. 环境搭建1.1 Hive 1.X2. 使用2.1 数据库2.2 表2.3 分区2.4 分桶2.5 数据操纵2.5.1 导入数据2.5.2 导出数据2.5.3 查询2.5.4 删除2.5.5 自定义函数2.6 通过脚本运行HQLHive 学习笔记1. 环境搭建1.1 Hive 1.X要求:搭建H...

2018-09-08 17:46:12 456

原创 Hadoop 自定义输入输出

Hadoop 自定义输入输出一、输入端1. 数据读取抽象类2. 自定义MySQL输入类二、输出端1. 数据输出抽象类2. 自定义MySQL输出类三、测试例1. 目的2. 数据库表结构3. 编写测试例3.1 Map 输入Value类3.2 Map 输出Key3.3 Map 输出Value3.4 Map 任务3.5 Reduce 输出Value3.6 Red...

2018-09-05 22:10:52 538

原创 hadoop完全分布式搭建(CentOS 6.5)

hadoop完全分布式搭建(CentOS 6.5)1. 关闭防火墙2. 修改hostname3. 修改网络映射hosts4. 配置免密登录5. 准备软件环境6. 配置环境变量7. 修改hadoop配置文件7.1 hadoop-env.sh 和 yarn-env.sh7.2 core-site.xml7.3 hdfs-site.xml7.4 mapred-site.xml...

2018-08-29 15:35:49 555

原创 Linux命令总结(持续更新)

Linux命令学习总结(持续更新)基本命令目录结构用户和用户组权限相关vi编辑器配置网络Linux命令学习总结(持续更新) 菜鸟教程-Linux教程基本命令ls 查看当前目录 -l 显示详细信息-a 显示所有文件(.开头的隐藏文件)pwd 查看当前位置的绝对路径clear 清空屏幕cd 改变当前目录mkdir 创建目录 -p 递归创...

2018-08-27 19:53:00 299

原创 异步事件框架

简介基于生产者与消费者模型实现生产者在为框架的外部接口,发送待处理事件至同步优先队列中。消费者从事件队列中读取事件根据读取到的事件,根据事件的类型分发至具体的处理器流程图如下: 同步优先队列使用Redis存储,方便分布式环境使用在消费者中使用线程池并发从同步队列中获取待处理事件每个事件处理器均接口同一接口,在Spring中可以直接获取所有的处理器实现类,再根据期望处理...

2018-08-15 22:37:43 1393

原创 MySQL分组统计 组内按时间逆序

表结构如下:+-----------------+--------------+------+-----+---------+----------------+| Field | Type | Null | Key | Default | Extra |+-----------------+--------------+------+-...

2018-08-12 23:49:39 1430

原创 使用前缀树过滤敏感词

定义前缀树类public class TrieNode { // 是否为关键词结尾 private boolean end = false; // 当前节点的所有的子节点 private Map&amp;lt;Character, TrieNode&amp;gt; subNodes = new HashMap&amp;lt;Character, Tri...

2018-08-10 14:53:37 3113

原创 Docker学习笔记

Docker学习笔记 参考资料:《Docker-从入门到实践》镜像创建镜像从仓库下载# 简略版,默认从官方Docker Hub上下载镜像docker pull ubuntu:16.04(镜像标签)# 完全版,指定镜像仓库下载镜像docker pull [Docker Registry 地址[:端口号]/]仓库名[:标签]通过Dockerpro...

2018-08-07 20:01:49 2320

原创 构建自己的IP代理池

借助免费的西刺IP代理构建自己IP代理池需要安装的Python库requestsscrapy.Selectorpymysql代码如下:import requestsfrom scrapy import Selectorimport pymysqlimport sysconn = pymysql.connect(&amp;amp;amp;quot;localhost&amp;amp;amp;quot;, &amp;amp;amp;quot;root

2018-08-04 22:01:58 7151

原创 【8种排序算法】Java实现

import java.util.Arrays;public class QuickSort { public static void main(String[] args) { int[] arr= {49,38,65,97,76,13,27}; quickSort(arr, 0, arr.length-1); System.out.p...

2018-07-31 15:44:21 3674 1

原创 Java 生产者与消费者案例 双指针操纵数据缓存区

简介生产者和消费者共同操纵一个数据缓冲区,其中生成者向缓冲区中写入数据,消费者从缓冲区中读取数据。本程序实现如下,生产者和消费者实现Runnable接口,不断写入或读取数据。多个生产者和消费者线程通过Executor进行管理。对数据缓冲区的操作中,使用写入位置指针和读取位置指针分别标明写入或读取位置。测试程序:// 声明唯一的数据缓存区DataCache cache = ...

2018-07-21 14:35:56 1055

原创 Java 并发 多线程 学习笔记

接口Runnable和类Thread的区别Runnable -&amp;amp;amp;amp;amp;amp;gt; run(): 不是有单独的线程驱动的,需要依托其他线程Thread -&amp;amp;amp;amp;amp;amp;gt; run(): 具有自己的线程使用Executor进行线程管理不占用当前启动线程的资源程序会在调用shutdown()之前提交的所有任务完成后结束ExecutorService: CachedThreadPool: 为每

2018-07-20 14:44:23 959

原创 Java注解

元注解: 专职负责注解其他的注解@Target: 表示该注解可以用于什么地方,可用的ElementType参数包括: CONSTRUCTIOR: 构造器的声明FIELD: 域声明(包括enum实例)LOCAL_VARIABLE: 局部变量声明METHOD: 方法声明PACKAGE: 包声明PARAMETER: 参数声明TYPE: 类、接口(包括注解类型)或enum声明@Ret...

2018-07-20 14:39:28 876

原创 Java 自增线程安全性测试及解决方案

i++线程不安全原因多个线程同时访问共享变量i,而JVM允许每个线程存储变量的副本,i++的操作可以分为三步: 取值、自增、写回。存在一个线程在 自增 时,刚好有线程在 取值,因此最后会出现i增加的结果总比预计的结果线程小。测试例:class TestIPlus { private int val = 0; public void run() { ...

2018-07-19 15:46:25 2265

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除