beautiful_huang-CSDN博客

原创 Elasticsearch Java API 针对 Geohash7 网点进行分桶聚合

ES java api复杂场景检索

2024-09-13 16:08:33 1076

原创 MAC上安装brew

MAC上安装brewbrew 是 Mac 下的一个包管理工具，作用类似于 centos 下的 yum。brew 可以用一条命令，就可以在mac上安装、卸载、更新各种软件包，因为brew的使用方便，如今已成为使用mac电脑的程序员的必备工具mac上如何安装brew？安装brew安装brew也很简单，一条命令即可:/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"brew基本

2022-05-24 16:54:02 691

原创 mac安装brew(亲测)

mac安装brew(亲测)在网上搜了很多brew安装方式，包括使用官网的方式都安装报错Failed to connect to raw.githubusercontent.com port 443: Connection refused然后找了好久终于找到一个安装成功。安装方式:/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"...

2022-05-24 16:42:15 330

原创【Java】Mybatis Druid连接池配置详细

pom.xml <dependency> <groupId>com.alibaba</groupId> <artifactId>druid</artifactId> <version>1.0.18</version> </dependency>.proper

2021-03-25 17:51:19 1498

原创 Java 处理Get/Post请求参数中文乱码问题

文章目录一、 maven 依赖二、发送post和get请求http工具类json工具类Controller三、接受 http请求PostGet一、 maven 依赖<dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.1</version></dep

2021-03-15 19:31:38 1349 1

原创【MaxCompute】MaxCompute 处理复杂json、json数组

json数组数据样例：[{"date":"2016-09-24","period":1,"custom_dimension":"","term_type_id":14}]GET_JSON_OBJECT 函数：SELECT GET_JSON_OBJECT(name_tmp,'$.date') FROM ( SELECT regexp_replace(regexp_replace(regexp_replace(json_str,'^\\[',

2020-08-27 11:18:21 4167 1

原创【Java】职场软技能，分割提取pdf文件，从此告别WPS会员

需求：需要华南、华东、西南区三个文件夹中的 7-12 页的报表信息样例：jar包 <dependency> <groupId>com.itextpdf</groupId> <artifactId>itextpdf</artifactId> <vers

2020-07-29 16:38:52 309

原创【机器学习】机器学习进阶之旅（一）

<h2>1.数学</h2>数学是学不完的，也没有几个人能像博士一样扎实地学好数学基础，入门人工智能领域，其实只需要掌握必要的基础知识就好。AI的数学基础最主要是高等数学、线性代数、概率论与数理统计三门课程，这三门课程是本科必修的。这里整理了一个简易的数学入门文章。数学基础：高等数学 https://zhuanlan.zhihu.com/p/36311622数学基础：线性代数 https://zhuanlan.zhihu.com/p/36584206数学基础...

2020-07-23 20:24:08 1923

原创【MaxCompute】MaxCompute SQL with as 语句

COMMON TABLE EXPRESSION（CTE）MaxCompute支持SQL标准的CTE，提高SQL语句的可读性与执行效率。命令格式：WITH cte_name AS ( cte_query ) [,cte_name2 AS ( cte_query2 ) ,……]参数说明：cte_name：CTE的名称，不能与当前WITH子句中的其他CTE的名称相同。查询中任何使用到cte_name标识符

2020-07-04 17:00:14 3300 1

原创【MaxCompute】实现自定义UDF、UDTF详解

背景及目的本文简单地介绍了一下如何新建工程，添加代码，打包，上传资源包和注册方法，对初次接触的用户提供帮助。另外，详解介绍通过UDF来满足不同的计算需求。UDF 开发流程如下：UDF概述UDF全称为User Defined Function，即用户自定义函数。MaxCompute提供很多内建函数来满足您的计算需求，同时您还可以通过创建自定义函数来满足不同的计算需求。UDF在使用上与普通的内建函数类似，Java和MaxCompute的数据类型的对应关系，请参见参数与返回值类型。如果您使用Mav

2020-06-29 19:33:54 11782

原创【Qucik BI】查询控件详解，分分钟成为数据分析师

情景再现：现在有某大型连锁超市的一整年的经营数据，分析师要将这些数据以一张报表的形式呈现给不同的人来看，分别是公司的CXO，业务线的管理者还有一线的业务人员。显然，这些人关注的核心数据是不一样的。CXO作为公司的决策层，会关注这个连锁超市整体的经营业绩还有重点业务的经营分析，为整个公司的日常决策找到数据化支持；而业务线的管理者，往往就会关注他所负责的这个业务整体的经营业绩和完成情况，希望通过对业务的日常经营监控和分析来指导下一阶段的运营动作。那么如何在一张报表中有针对性地输出不同的数据内容呢？做多个报表

2020-06-16 19:52:41 1503

原创【Mysql】Mysql 入门详解（一）

MySQL 一直是本人很薄弱的部分，后面会多输出 MySQL 的文章贡献给大家，毕竟 MySQL 涉及到数据存储、锁、磁盘寻道、分页等操作系统概念，而且互联网对 MySQL 的注重程度是不言而喻的，后面要加紧对 MySQL 的研究。写的如果不好，还请大家见谅。非关系型数据库和关系型数据库区别，优势比较非关系型数据库（感觉翻译不是很准确）称为 NoSQL，也就是 Not Only SQL，不仅仅是 SQL。非关系型数据库不需要写一些复杂的 SQL 语句，其内部存储方式是以 key-value 的形式.

2020-05-26 20:58:57 692 2

原创【ACP】阿里云ACP吐血汇总（一）

文章目录一、大数据基础知识小结（1）数据分析（2）数据仓库系统（3）数据仓库解决的问题（4）大数据的理解二、阿里云大数据产品体系（1）产品体系概况：（2）阿里云数加平台定位：（3）阿里云大数据基础产品：（4）阿里云数加平台：三、大数据产品典型应用场景（1）从业务系统到数据分析（2）传统企业BI应用（3）探索式分析（4）商业智能分析（5）线上线下混合运用一、大数据基础知识小结（1）数据分析数据分析是基于商业目的，有目的的进行收集、整理、加工和分析数据，提炼有价值信息的过程。数据分析通俗的说就是对收集起来

2020-05-22 20:43:14 4010

原创【Hive】数仓建设之拉链表

全文由下面几个部分组成：先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释，以及拉链表和常用的切片表的区别。举一个具体的应用场景，来设计并实现一份拉链表，最后并通过一些例子说明如何使用我们设计的这张表（因为现在Hive的大规模使用，我们会以Hive场景下的设计为例）。分析一下拉链表的优缺点，并对前面的提到的一些内容进行补充说明，比如说拉链表和流水表的区别。...

2020-05-06 10:14:07 623

原创【Flink】Flink 入门（二）-- 架构详解

文章目录一、 Flink 运行时的组件二、任务提交流程三、任务调度原理3.1 TaskManger 与 Slots3.2 程序与数据流（DataFlow）3.3 执行图（ExecutionGraph）3.4 并行度（Parallelism）3.5 任务链（Operator Chains）一、 Flink 运行时的组件Flink 运行时架构主要包括四个不同的组件，它们会在运行流处理应用程序时协同...

2020-04-20 20:54:14 627

原创【Flink】Flink入门（一）

文章目录一、Flink 简介二、Flink 的重要特点2.1 事件驱动型(Event-driven)2.2 流与批的世界观2.3 分层api三、Flink 几大模块一、Flink 简介Flink 起源于 Stratosphere 项目，Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目，2014 年 4 月 Stratosp...

2020-04-20 20:52:36 282

原创 Centos7 安装配置 ftp 服务器（亲测有效）

首先在windows下载安装 flashfxp在Centos7 环境下配置yum install -y vsftpd2.启动服务并检查Systemctl start vsftpd3.修改 /etc/vsftpd/vsftpd.confvi /etc/vsftpd/vsftpd.conf// 最后添加anonymous_enable=NO(不允许匿名登录)userlist_d...

2020-04-08 17:48:59 1308

原创【Shell】Shell 脚本配置无密登录

#! /bin/bash# start no passwordecho "================================"echo " No secret login"echo "================================"echo "please wait moment......"if [ -f ~/.ssh/id_rsa ];thenec...

2020-04-06 11:47:51 257

原创【Spark】Spark Streaming（二）—— DStream Transformation操作

本节主要内容本节部分内容来自官方文档：http://spark.apache.org/docs/latest/streaming-programming-guide.htmlDStream Transformation操作1. Transformation操作 Transformation Meaning map(func) 对DStream中的各个元素进...

2020-03-24 10:13:38 284

原创【Java】牛客网华为机试108题汇总

文章目录1、求字符串最后一个单词长度2、计算字符串个数3、明明的随机数1、求字符串最后一个单词长度import java.util.Scanner;/** * @Author: Stephen * @Date: 2020/3/21 13:24 * @Content: 计算字符串最后一个单词的长度，单词以空格隔开。 */public class StrLength01 { ...

2020-03-23 21:52:04 11176

原创【Spark】Spark Streaming（一)

1. Spark流式计算简介Hadoop的MapReduce及Spark SQL等只能进行离线计算，无法满足实时性要求较高的业务需求，例如实时推荐、实时网站性能分析等，流式计算可以解决这些问题。目前有三种比较常用的流式计算框架，它们分别是Storm，Spark Streaming和Samza，各个框架的比较及使用情况，可以参见：http://www.csdn.net/article/2015-0...

2020-03-23 21:41:25 175

原创【Spark】Spark Streaming foreachRDD的正确使用方式

重点：Spark Streaming的foreachRDD运行在Driver端，而foreach和foreachPartion运行在Worker节点。备注：对数据的向外输出，还是用foreach**算子好，不要用Map**算子，因为Map还要返回一个RDD。误区一：在driver上创建连接对象（比如网络连接或数据库连接）如果在driver上创建连接对象，然后在RDD的算子函数内使用连接对象，那么就...

2020-03-23 11:11:39 475

原创【Spark】Spark join()和cogroup()区别

官网对join和cogroup解释示例代码： /** * join（otherDataSet，[numTasks]） * 加入一个RDD，在一个（k，v）和（k，w）类型的dataSet上调用，返回一个（k，（v，w））的pair dataSet。 */ def join(): Unit ={ val list1RDD = sc.parallelize(L...

2020-03-23 10:11:12 1062

原创【Java】TreeSet（）详解

1.概述在本文中，我们将介绍Java Collections Framework的一个组成部分，以及最受欢迎的Set实现之一 TreeSet。2. TreeSet简介简而言之，TreeSet是一个有序集合，它扩展了AbstractSet类并实现了NavigableSet接口。以下是此实现最重要方面的快速摘要：它存储唯一的元素它不保留元素的插入顺序它按升序对元素进行排序它不是线程安...

2020-03-21 14:57:39 18337

原创【Java】java 中 next（）与 nextline（）区别

java中的next()和nextLine()还是有很大区别的。next（）一定要读取到有效字符后才可以结束输入，对输入有效字符之前遇到的空格键、Tab键或Enter键等结束符，next（）方法会自动将其去掉，只有在输入有效字符之后，next（）方法才将其后输入的空格键、Tab键或Enter键等视为分隔符或结束符。完整标记的前后是与分隔模式匹配的输入信息所以next()不能得到带空格的字符串，儿...

2020-03-21 14:12:56 166

原创【Oozie】oozie学习笔记

Oozie英文翻译为：驯象人。一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对HadoopMapreduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。功能Oozie是一个管理Hdoop作业（job）的工作流程调度管理系统Oozie的工作流是一系列动作的直接周期图...

2020-03-18 17:59:10 323

原创【Spark】pyspark 基于DataFrame使用MLlib包

在这里，我们将基于DataFrame使用MLlib包。另外，根据Spark文档，现在主要的Spark机器学习API是spark.ml包中基于DataFrame的一套模型。 5.1 ML包的介绍从顶层上看，ML包主要包含三大抽象类：转换器、预测器和工作流。5.1.1 转换器（Transformer）从Transformer抽象类派生出来的每一个新的Transformer都需要实现一个....

2020-03-13 14:06:05 963

原创【Spark】pyspark常用RDD总结

为了更好地进行大数据分析与处理，最近在学习PySpark，整理了一下笔记，加深印象。1 Resilient Distributed Datasets（RDD）弹性分布式数据集（RDD）是一个不可变的JVM对象的分布式集合，是Spark的基本抽象。1.1 创建RDD 准备工作：>>> import pyspark>>> from pyspark i...

2020-03-13 14:01:55 1176

原创【Oozie】Oozie4.1.0-CDH安装（亲测有效）

安装oozie经历了好长的时间，先是源码包，但是放弃了。。。然后就是安装的这个CDH版本的，弄了好久，经常报各种错误。最后整理出来这篇。这个安装过程同样适用于oozie4.1.0的其他的CDH版本。先对文件进行下载：这里使用的是CDH版本的，免编译，看着编译的过程就够了。下载地址：http://archive.cloudera.com/cdh5/cdh/5/oozie-4.1.0-cdh5.5.2...

2020-03-06 17:17:46 845

原创【Kafka】kafka：如何保证消息不丢失不重复

首先要考虑这么几个问题：消息丢失是什么造成的？（从生产端和消费端两个角度来考虑）消息重复是什么造成的？（从生产端和消费端两个角度来考虑）如何保证消息有序？如果保证消息不重不漏，损失的是什么？消费端重复消费：很容易解决，建立去重表。消费端丢失数据：也容易解决，关闭自动提交offset，处理完之后受到移位。生产端重复发送：这个不重要，消费端消费之前从去重表中判重就可以。生产端丢失数据：...

2020-03-06 17:11:31 1004

原创【Kafka】Kafka stream 模拟股票证券大屏实时动态显示

文章目录kafka Producer 模拟股市价格的成交价利用流统计每种股票价格实时数据基于吞吐量存储与redis使用 Echarts 完成实时动态图标呈现效果图kafka Producer 模拟股市价格的成交价package com.njbdqn.services;import org.apache.kafka.clients.producer.KafkaProducer;import...

2020-03-06 16:35:11 1053

原创【Kafka】Kafka消费者组subscribe和assign的正确使用

使用Apache Kafka 消费者组时，有一个为消费者分配对应分区partition的过程，我们可以使用“自动”subscribe和“手动”assign的方式。同时进行“自动”和“手动”的分区分配是会互相影响的，有时会把事情搞糟。正确的使用，首先要了解这两种方式的场景。消费者组的使用场景Kafka里的消费者组有两个使用的场景：“队列模式”：在同一组的消费者共同消费一个主题的所有消息，...

2020-03-06 10:30:38 8990

原创【Kafka】broker -副本与ISR设计

kafka把分区的所有副本均匀地分配到所有broker上，并从这些副本中挑选一个作为leader副本对外提供服务，而其他副本被称为follower副本，只能被动地向leader副本请求数据，从而保持与leader副本的同步：所谓isr，就是Kafka集群动态维护的一组同步副本集合，每个topic分区都有自己的isr列表，isr中的所有副本都与leader保持同步状态，而producer写入的一条...

2020-02-25 16:20:26 265

原创【Kafka】深入探究--为什么Kafka速度快

Kafka的消息是保存或缓存在磁盘上的，一般认为在磁盘上读写数据是会降低性能的，因为寻址会比较消耗时间，但是实际上，Kafka的特性之一就是高吞吐率。即使是普通的服务器，Kafka也可以轻松支持每秒百万级的写入请求，超过了大部分的消息中间件，这种特性也使得Kafka在日志处理等海量数据场景广泛应用。针对Kafka的基准测试可以参考，Apache Kafka基准测试：每秒写入2百万（在三台廉价机...

2020-02-25 16:17:36 226

原创【Kafka】Kafka指定分区消费

import org.apache.kafka.clients.consumer.Consumer;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import org.apache.kafka.clients.co...

2020-02-25 16:08:00 3027

原创【Kafka】Kafka自定义分区器

1. 默认的分区策略(1) 如果键值为 null，并且使用了默认的分区器，那么记录将被随机地发送到主题内各个可用的分区上。分区器使用轮询（Round Robin）算法将消息均衡地分布到各个分区上。(2) 如果键不为空，并且使用了默认的分区器，那么 Kafka 会对键取 hash 值然后根据散列值把消息映射到特定的分区上。这里的关键之处在于，同一个键总是被映射到同一个分区上，所以在进行映射时，我...

2020-02-25 15:35:54 1395 2

原创【Kafka】Kafka核心架构、备份机制汇总

kafka是一款基于发布与订阅的消息系统。它一般被称为“分布式提交日志”或者“分布式流平台”。文件系统或者数据库提交日志用来提供所有事物的持久化记录，通过重建这些日志可以重建系统的状态。同样地，kafka的数据是按照一定顺序持久化保存的，可以按需读取。 1、kafka拓扑结构 2、Kafka的特点同时为分布和订阅提供高吞吐量。据了解，Kafka每秒可以生...

2020-02-25 14:35:43 814

原创【Spark】spark去重操作（窗口函数、内置函数）

查看重复记录找到最新的时间戳去重(窗口函数)import org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.functions._val dfResult = dfTraining.withColumn("rn",row_number() over Window.partitionBy($"user",...

2020-02-24 14:15:11 1459

原创【Hive】四种排序方式

Hive中4种排序的区别共有四种排序：order by，sort by ，distribute by，cluster byorder by全局排序；对输入的数据做排序，故此只有一个reducer(多个reducer无法保证全局有序)；只有一个reducer，会导致当输入规模较大时，需要较长的计算时间；sort by非全局排序；在数据进入reducer前完成排序；当mapred.r...

2020-02-24 14:09:42 2250

原创【Spark】Spark cache的用法及其误区分析

Spark cache的用法及其误区:一、Cache的用法注意点：（1）cache之后一定不能立即有其它算子，不能直接去接算子。因为在实际工作的时候，cache后有算子的话，它每次都会重新触发这个计算过程。（2）cache不是一个action，运行它的时候没有执行一个作业。（3）cache缓存如何让它失效：unpersist，它是立即执行的。persist是lazy级别的（没有计算），un...

2020-02-24 09:21:48 4817

空空如也

空空如也