house.zhang-CSDN博客

原创 docker 网络的原理是怎么样的

覆盖网络是一种特殊类型的 Docker 网络，它允许在不同 Docker 主机之间的容器进行通信。当你创建一个覆盖网络时，Docker 会在主机上创建一个虚拟网络，并使用 VXLAN 技术将该网络扩展到其他 Docker 主机上。当你创建一个桥接网络时，Docker 会在主机上创建一个虚拟网桥，并将容器连接到该网桥上。当你创建一个 Docker 网络时，Docker 会在主机上创建一个虚拟网络，并将容器连接到该网络中。主机网络是一种简单的 Docker 网络类型，它允许容器与主机共享网络栈。

2023-05-15 11:49:54 398

原创 Spark Livy 指南及livy部署访问实践

背景：Apache Spark 是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit 提交打包好的spark 应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网络访问权限，这种方式存在增加client所在节点资源使用负担和故障发生的可能性，同时client节点

2022-05-05 18:09:31 3789 4

原创大数据AI Notebook产品介绍和对比

背景大数据数据需要查询分析可视化工具,AI数据挖掘和探索也需要相关可视化编辑工具，开源产品主要有两个一个是Zeppelin notebook 一个是jupyter notebook，其中juypter主要用于数据科学家、算法分析人员使用python进行数据分析、算法建模，相关企业如aws、百度、腾讯都有基于jupyter notebook去进行定制化开发，zeppelin notebook比较偏重于大数据数据查询分析可视化，支持多种大数据计算引、存储引擎擎如：Spark、Flink、Hive、Kylin等

2022-03-24 17:44:20 4654

原创大数据Ambari自定义服务详细介绍

一、背景知识介绍Ambari 内置服务包括Ambari 自己都是以rpm 包方式存放于repositories中。Ambari 一般有四个 repositories，具体如下：1．Ambari：存放 ambari server, ambari agent, 和相关监控软件2．HDP：存放 stack 软件包3.HDP-UTILS：存放安装 Ambari 和 HDP 的公用包，例如：Ganglia, Nagios, Snappy, Rrd 等4.EPEL：存放企业版本 Linux 所需的额外包，

2022-03-23 16:14:37 5548

原创推荐系统的那些事儿

问题背景我们周围存在大量的文字、语音、视频等信息，比如网络购物玲琅满目的商品信息，浏览抖音各种类型的信息，一个互联网产品是否具有吸引力，是看其有多智能，能够让用户发较小的时间能够获取他感兴趣的内容，这里面少不了推荐系统的作用了，它已经渗透到我们生活中的方方面面，他们解决的问题的本质都是一一样的，就是为了解决：“信息”过载的情况下，用户如何高效获取感兴趣的信息。在浩如烟海的互联网信息中和用户兴趣点之间，搭建起一座桥梁。逻辑结构推荐系统主要处理的是人和物的关系，描述一个人可以从性别、年龄、

2022-03-03 20:00:00 413

原创 AI 机器学习实践总结

机器学习基础什么是机器学习机器学习是一种从数据生成规则、发现模型，来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数，而不是程序员直接编写函数的技术)说起函数就涉及到自变量和因变量，在机器学习中，把自变量叫做特征（feature）多个自变量分别可以定义为X1，X2..Xn，因变量叫做标签（label），可定义为Y，而一批特征和标签的集合，就是机器学习的数据集。机器学习的学习过程就是在已知的数据集的基础上，通过反复的计算，选择最准确的函数去描述数据集中自变量X1，..

2022-03-02 02:15:00 3503 2

原创在线学习FTRL介绍及基于Flink实现在线学习流程

背景目前互联网已经进入了AI驱动业务发展的阶段，传统的机器学习开发流程基本是以下步骤：数据收集->特征工程->训练模型->评估模型效果->保存模型，并在线上使用训练的有效模型进行预测。这种方式主要存在两个瓶颈：模型更新周期慢，不能有效反映线上的变化，最快小时级别，一般是天级别甚至周级别。另外一个是模型参数少，预测的效果差；模型参数多线上predict的时候需要内存大，QPS无法保证。针对这些问题，一般而言有两种解决方式：一种是采用On-line-learning的算法

2022-03-01 21:39:51 2694

原创 Flink on K8s 企业生产化实践

背景为了解决公司模型&特征迭代的系统性问题，提升算法开发与迭代效率，部门立项了特征平台项目。特征平台旨在解决数据存储分散、口径重复、提取复杂、链路过长等问题，在大数据与算法间架起科学桥梁，提供强有力的样本及特征数据支撑。平台从 Hive 、Hbase 、关系型数据库等大数据 ODS ( Operational Data store ) 层进行快速的数据 ETL ，将数据抽取到特征平台进行管理，并统一了数据出口，供数据科学家、数据工程师、机器学习工程师做算法模型的数据测试、训练、推理及其他数据应用

2022-02-22 11:04:33 2059 1

原创 FLINK原理与实现-内存管理

背景介绍一句话来介绍 Flink 就是 “Stateful Computations Over Streams”。四个基石：Checkpoint、State、Time、Window。Checkpoint 机制，Flink 基于 Chandy-Lamport 算法实现了分布式一致性的快照，从而提供了 exactly-once 的语义。（Flink 基于两阶段提交协议，实现了端到端的 exactly-once 语义保证。内置支持了 Kafka 的端到端保证，并提供了 TwoPhaseCommitSinkF

2022-01-26 14:56:22 1434

原创 Java Hive UDTF 将WKT格式的Geomotry转换成GeoJSON

Java Hive UDTF 将WKT格式的Geomotry转换成GeoJSON背景知识WKT(Well-known text)是一种文本标记语言，用于表示矢量几何对象、空间参照系统及空间参照系统之间的转换。它的二进制表示方式，亦即WKB(well-known-binary)则胜于在传输和在数据库中存储相同的信息。GeoJSON是一种对各种地理数据结构进行编码的格式，可以表示几何、特征或者特征集合。WTK点 POINT(6 10)线 LINESTRING(44 4,11 44,33 25)面

2021-12-27 10:20:24 2348

原创 jupyter notebook安装部署及实战组合漏斗图绘制

背景：大多数互联网企业都提供有类似Notebook类的产品，采用交互式的方式进行数据分析、数据建模及数据可视化。主要实现大多都是基于jupyter 、Zeppelin进行定制化开发，重点会打通大数据计算、存储及底层资源管理，支持常见的机器学习和深度学习计算框架，算法分析及建模中最常见的是采用jupyter notebook，能够在浏览器中，通过编写python脚本运行脚本，在脚本块下方展示运行结果。jupyter notebook 可以交互式的开发，再加上拥有丰富的的文本格式、可以图文并茂的展示结果，

2021-12-01 12:13:24 2190

原创三分钟了解下机器学习

什么是机器学习？机器学习是一种从数据生成规则、发现模型，来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数，而不是程序员直接编写函数的技术)说起函数就涉及到自变量和因变量，在机器学习中，把自变量叫做特征（feature）多个自变量分别可以定义为X1，X2…Xn，因变量叫做标签（label），可定义为y，而一批特征和标签的集合，就是机器学习的数据集。机器学习的学习过程就是在已知的数据集的基础上，通过反复的计算，选择最准确的函数去描述数据集中自变量X1，X2…Xn 和因变量Y之间

2021-12-01 12:06:43 1796

原创 K8S Pod 停止不掉一直处于Terminating状态问题解决

背景用户反馈一个问题，在删除任务重建任务会提示资源清理不成功，赶紧登陆服务器一通操作 kubectl发现Pod一直处于Terminating状态：管它三七二十一先执行：kubectl delete pod spark-xxx --grace-period=0 --force --namespace 先强制干掉再细细分析；排查实录：• 先执行：kubectl get nodes -o wide 发现其中一个节点处于 NotReady状态，断定节点有点问题。• 接着执行查看节点具体状态kub

2021-11-08 15:44:21 10972

原创构建可靠、可扩展与可维护的应用系统

当前的应用系统，通常数据量比较大、数据复杂度比较高以及数据快速多变，可以把这样的系统称之为数据密集型系统，数据密集型系统通常基于不同的模块组件进行构建，根据不同的功能采用不同的组件，各个组件相互配合组合成一个功能强大、满足不同需求场景的应用系统，比如一个互联网系统通常由类似以下结构组成：数据库：主要产品是mysql，用于存储和持久化数据，一遍数据能够多次访问。高速缓存：主要产品有Redis、Memcached缓存那些经常要访问以及复杂计算和操作的数据，用来加快数据的返回，减少数据库压力，扩大系统并发

2021-10-28 22:06:17 3172

原创一种提升线上ElasticSearch集群读写能力的方法

问题背景：业务在使用ES集群读取ES数据，如果同时向ES集群写任务时，会遇到RT涨的情况，会出现一些抖动，尤其是在计算框架大量增加并发度像ES集群写的情况下会出现抖动，目前的话是大数据计算集群减少并发写。以后还是期望增加并发度，加快写入速度，预期会对ES集群读性能带来挑战目前现状：目前线上是采用的 5台 64C 128G 1THDD，机器配置比较高，使用比较稳定，在集群同时大量读写时出现一些抖动，没有发生过 FGC等状况，平均延迟都在毫秒级。集群索引所占据的数据量大概为300-500G。集群的搭建

2021-10-26 15:21:36 2851

原创记录一次k8s APIService 包含的接口异常导致删除Pod一直处于terminating状态

问题现象：k8s 执行 delete操作发现pod一直处于terminating问题排查执行：kubectl get APIService发现：v1beta1.events.k8s.io Local True 13dv1beta1.extensions Local True 13dv1beta1.metrics.k8s.io

2021-10-12 14:17:16 4586

原创 k8s 监控程序Metric-server pod运行异常报：it doesn‘t contain any IP SANs

查看 pod状态，pod 正在运行但是pod状态不正常：kubectl get pods -n kube-systemmetrics-server-756b6bb44f-d5tgj 0/1 Running 0 11s查看日志：it doesn’t contain any IP SANs" node=“kubernetes-master”it doesn’t contain any IP SANs" node="node1google

2021-10-11 11:16:50 3765

原创快速搭建K8s集群一键安装脚本及配置说明

简介：采用kubeadm安装集群非常方便，只不过安装前还需要做些前置的系统配置，如果构建多个节点的集群会涉及到一些重复操作，这时候最好编写成一个脚本快速的安装部署。基础安装脚本，需要在每台机器上执行#!/bin/bashecho "1、修改DNS配置如有需要"chattr -i /etc/resolv.confcat <<EOF >> /etc/resolv.conf nameserver 10.139.0.246nameserver 10.139.0.247

2021-09-15 21:30:05 3294

原创 Linux系统修改DNS配置文件/etc/resolv.conf 出现Operation not permitted解决方法

DNS服务配置有问题，导致域名解析有误，所以需要重新配置dns服务器在用vim编辑该文件时会提示W10: Warning: Changing a readonly file错误，用root也不行然后去修改文件权限：chmod +w /etc/resolv.conf会报如下错误：chmod: changing permissions of `/etc/resolv.conf': Operation not permitted主要原因是文件元信息有i属性，文件被设置成i属性防止系统中某个关键文

2021-09-15 16:02:07 5731 2

原创 k8s集群新增节点重新生成token、certificate-key等操作

K8S通常执行如下语句进行初始化：kubeadm init --config=kubeadm_config.yml --upload-certs 或者：kubeadm init --config kubeadm.yaml 这两条语句的区别就是第一条生成带certificate key 用来增加master节点的join操作后一条就只生成了join work节点的从左。在 kubeadm 初始话集群成功后会返回join 命令，里面有 token，discovery-token-ca

2021-09-15 15:36:12 5009

原创 HDFS 是如何实现大数据高容量、高速、可靠的存储和访问的。

对于一个企业大数据应用来说，搞定了大数据存储基本上就解决了大数据应用最重要的问题。Google 三驾马车的第一驾是GFS，Hadoop最先开始设计的就是HDFS，可见分布式存储的重要性，整个大数据生态计算框架多种多样，但是大数据的存储却没有太大的变化，HDFS依旧是众多分布式计算的基础。当然HDFS也有许多缺点，一些对象存储等技术的出现给HDFS的地位带来了挑战，但是HDFS目前还是最重要的大数据存储技术，新的计算框架想要获得广泛应用依旧需要支持HDFS。大数据数据量大、类型多种多样、快速的增长等特性...

2021-08-26 18:47:43 1817

原创三分钟了解大数据技术发展史

我们常说的大数据技术，大致主要起源于 Google 在 2004 年前后发表的三篇论文，其实数据处理早就存在，每个公司或者个人都有自己的大数据处理系统，并没有形成编程框架和理念，而这三篇论文也就是我们熟知的大数据三驾马车，分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库 BigTable，这三篇论文影响了当今大数据生态，可以称得上大数据的基石，Doug cutting 大佬在基于谷歌的三篇论文开发出了 hadoop hdfs 分布式文件存储、MapReduce

2021-08-19 21:25:32 1363

原创 Zeppelin 集成TDengine 的探索与实践

背景大多数互联网企业都提供有类似Notebook类的产品，采用交互式的方式进行数据分析、数据建模及数据可视化。主要实现大多都是基于jupyter 、Zeppelin进行定制化开发，重点会打通大数据计算、存储及底层资源管理，支持常见的机器学习和深度学习计算框架。TDengine是一个高效的存储、查询、分析时序大数据的平台，专为物联网、车联网、工业互联网、运维监测等优化而设计。在时序空间大数据处理上，有着自己独到的优势，Zeppelin支持标准jdbc规范的数据源接入，可以在zeppelin notebo

2021-07-29 17:10:40 621 4

原创那些年踩过的Java日期时间的坑

那些年踩过的Java日期时间的坑在 Java 8 之前，我们处理日期时间需求时，使用 Date、Calender 和 SimpleDateFormat，来声明时间戳、使用日历处理日期和格式化解析日期时间。这些类的 API 的缺点比较明显，比如可读性差、易用性差、使用起来冗余繁琐，还有线程安全问题。下面来看看常见的java8之前日期时间的常见的问题：Calendar设置问题Calendar设置时间12小时和24小时问题例如：Calendar c = Calendar.getInstance();

2021-02-24 17:55:28 3818 1

原创记录一下通过springboot rest接口访问mysql返回JSON日期格式问题

问题：Spring Boot 中默认序列化后返回的日期格式类似于这样(时间戳)："create_time": 1537407384500或者是这样（UTC时间格式）："create_time": "2021-02-20T15:16:05.000+0000"原因：Spring中默认使用jackson 对对象进行序列化返回，其中遇到的时间日期字段默认是使用UTC时间进行处理，返回的UTC时间一般不太符合需求，一般在使用 // 指定时区 objectMapper.setTimeZone(

2021-02-22 15:51:45 2892

转载 Could not transfer artifact org.glassfish:javax.el:pom:3.0.1-b06-SNAPSHOT

org.glassfish:javax.el:jar:3.0.1-b06-SNAPSHOT: Failed to read artifact descriptor for org.glassfish:javax.el:jar:3.0.1-b06-SNAPSHOT: Could not transfer artifact org.glassfish:javax.el:pom:3.0.1-b06-SNAPSHOT修改方法把仓库目录中：.m2/repository/org/glassfish/javax.e

2021-02-20 17:04:30 5009 5

原创 flink source 示例demo

DataSource From Collectionpackage com.geekbang.flink.source;import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.datastream.DataStreamSource;import org.apache.flink.streaming.api.environment.StreamExecution

2021-01-06 10:19:59 150

原创 flink No ExecutorFactory found to execute the application

报错日志如下Exception in thread "main" java.lang.IllegalStateException: No ExecutorFactory found to execute the application. at org.apache.flink.core.execution.DefaultExecutorServiceLoader.getExecutorFactory(DefaultExecutorServiceLoader.java:84) at org.apache

2021-01-05 19:47:44 658

原创 pyflink udf 提交到本地集群执行报错No module named pyflink

背景mac环境 flink 1.11.2 执行pyflinkflink run -py /Users/haozhang/from_hive_to_mysql.pypyflink udf大概内容@udf(input_types=[DataTypes.ARRAY(DataTypes.INT())], result_type=DataTypes.STRING())def changeIntArrayToString(data): return str(data)t_env.execute_

2021-01-04 16:30:50 5638 1

转载 Apache Flink 1.12.0 正式发布，流批一体真正统一运行！

Apache Flink 社区很荣幸地宣布 Flink 1.12.0 版本正式发布！近 300 位贡献者参与了 Flink 1.12.0 的开发，提交了超过 1000 多个修复或优化。这些修改极大地提高了 Flink 的可用性，并且简化（且统一）了 Flink 的整个 API 栈。其中一些比较重要的修改包括：在 DataStream API 上添加了高效的批执行模式的支持。这是批处理和流处理实现真正统一的运行时的一个重要里程碑。实现了基于Kubernetes的高可用性（HA）方案，作为生产环境中，Zo

2020-12-14 11:51:16 2401

翻译 How to Read an Academic Article-如何阅读学术文章

如何阅读学术文章注意：没有任何一种样式适合所有人！进行略读，扫描，处理的基本步骤…阅读摘要（如果提供了的话）阅读介绍。阅读结论。略过中间部分，查看章节标题，表格，图形等，以尝试了解文章的样式和流程。文章是主要讲方法论的，概念的，理论的（语言或数学的），经验的还是其他类型的文章？它主要是一项调查，一种新颖的理论贡献，对现有理论或技术的经验应用，评论或其他吗？返回并快速阅读整个内容，跳过方程式，大多数图形和表格。返回并仔细阅读整个内容，着重看似最重要的部分或区域。掌握了作者试图提

2020-12-08 09:57:06 1195

原创 flink sql 从mysql读数据写入到ElasticSearch实践

背景主要是实践下从mysql读数据写入到ElasticSearch,以及总结下相关问题和想法参考链接：https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/dev/table/connectors/elasticsearch.html先决条件添加maven依赖，从mysql读取数据这两个依赖必不可少 <dependency> <groupId>org.apac

2020-12-03 14:21:52 3913 2

原创 flink sql 从mysql读数据写入到mysql实践

背景主要是实践下从mysql读数据写入到mysql，期间也会遇到的一些问题。参考链接：https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/connectors/jdbc.html先决条件添加maven依赖，从mysql读取数据到mysql这两个依赖必不可少 <dependency> <groupId>org.apache.flink</g

2020-12-03 11:45:40 6259 3

原创 flink sql 从filesystem读取数据写入filesystem实践 --错误记录

最近在验证flink sql 从source 读取数据写入到sink，验证一些场景，下面是简单的从一个文件当中读取数据写入到一个文件当中，这其中也遇到不少问题import org.apache.flink.table.api.EnvironmentSettings;import org.apache.flink.table.api.TableEnvironment;//前提条件，在tmp目录下的input文件，随便输入一些单词就好public class JavaSqlWordDemo { pu

2020-12-03 10:50:46 2268 1

原创 Flink起步-本地安装和启动

一、Flink 运行基础环境工具描述jdkjdk 1.8+mavenmaven 3,最好maven 3.25源代码https://github.com/apache/flink系统mac os/linux二、下载解压flink安装包$ tar -xzf flink-1.11.2-bin-scala_2.11.tgz$ cd flink-1.11.2-bin-scala_2.11三、单机 Standalone 的方式运行 Flink(base) h

2020-11-25 14:13:41 689

原创浅谈docker技术

docker的作用？从2010云计算开始火起来，什么Iass、Pass、SasS出现了许多年，尤其是pass方面更需要一个这样的平台解决应用打包、发布部署问题，需要解决开发本地环境，与线上环境的一致性。实际上一套pass平台无论是开发还是运维都需要发很大的精力去理解去学习。而大概从2013年docker的出现颠覆了这些做法，Docker 镜像解决的，恰恰就是打包这个根本性的问题。Docker 项目给 PaaS 带来的改变，其实是提供了一种非常便利的打包机制。这种机制直接打包了应用运行所需要的整个包.

2020-11-20 18:13:45 209

原创 flink java 代码引入 scala tuple2包导致失败

代码混用在java代码编写代码时候不知不觉就引入了，引入了scala包， <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_${scala.binary.version}</artifactId> <version>${flink.version}&lt

2020-11-20 15:01:17 1703

原创 getResourceAsStream returns null--Read file from resources folder in Spring Boot

https://www.codota.com/code/java/methods/java.lang.ClassLoader/getResourceAsStream采用springboot 读取配置文件，经常会遇到配置文件找不到问题，通常是上下文找不到文件，最终极的解决方案是把配置文件加入加入到classpath后去读取。package utils;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import org.springfra

2020-08-31 15:51:51 368

原创 jupyter notebook 集成R内核

Jupyter Notebook（此前被称为 IPython notebook）是一个交互式笔记本，支持运行 40 多种编程语言。 Jupyter Notebook 的本质是一个 Web 应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和 markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。智能钛为了方便开发人员做数据分析集成了jupyter notebook功能，支持R内核所做的工作如下：R环境安装主要是通过apt-get直接安装RUN apt-ge

2020-08-09 20:08:32 658

原创 PySpark包依赖问题解决方案及实践

摘要：hadoop yarn调度pyspark在使用过程中，使用场景不一致，需要安装一些三方依赖，尤其在机器学习算法方面依赖许多科学包如numpy、pandas 、matlib等等，安装这些依赖是一个非常痛苦的过程，本章结合ti产品在私有化过程中依赖包及版本升级等为题进行简单介绍。Spark on yarn分为client模式和cluster模式，在client模式下driver 会运行在提交节点上，该节点也可能不是yarn集群内部节点，这种方式可以根据自己的需要安装软件和依赖，以支撑spark app

2020-08-09 20:01:07 3173 1

系统集成项目管理工程师考试大纲2011

数据结构中树与二叉树详解

华为软件编码规范和范例

nodejs.pdf

C#入门经典（第五版）完整源代码

云计算负载均衡

无线路由器密码破解详解

移动云计算

空空如也