自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(119)
  • 资源 (9)
  • 收藏
  • 关注

原创 docker 网络的原理是怎么样的

覆盖网络是一种特殊类型的 Docker 网络,它允许在不同 Docker 主机之间的容器进行通信。当你创建一个覆盖网络时,Docker 会在主机上创建一个虚拟网络,并使用 VXLAN 技术将该网络扩展到其他 Docker 主机上。当你创建一个桥接网络时,Docker 会在主机上创建一个虚拟网桥,并将容器连接到该网桥上。当你创建一个 Docker 网络时,Docker 会在主机上创建一个虚拟网络,并将容器连接到该网络中。主机网络是一种简单的 Docker 网络类型,它允许容器与主机共享网络栈。

2023-05-15 11:49:54 276 1

原创 Spark Livy 指南及livy部署访问实践

背景:Apache Spark 是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中,它提供了两种方式进行数据处理,一是交互式处理:比如用户使用spark-shell,编写交互式代码编译成spark作业提交到集群上去执行;二是批处理,通过spark-submit 提交打包好的spark 应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息,并打通集群网络访问权限,这种方式存在增加client所在节点资源使用负担和故障发生的可能性,同时client节点

2022-05-05 18:09:31 3426 4

原创 大数据AI Notebook产品介绍和对比

背景大数据数据需要查询分析可视化工具,AI数据挖掘和探索也需要相关可视化编辑工具,开源产品主要有两个一个是Zeppelin notebook 一个是jupyter notebook,其中juypter主要用于数据科学家、算法分析人员使用python进行数据分析、算法建模,相关企业如aws、百度、腾讯都有基于jupyter notebook去进行定制化开发,zeppelin notebook比较偏重于大数据数据查询分析可视化,支持多种大数据计算引、存储引擎擎如:Spark、Flink、Hive、Kylin等

2022-03-24 17:44:20 4445

原创 大数据Ambari自定义服务详细介绍

一、背景知识介绍​Ambari 内置服务包括Ambari 自己都是以rpm 包方式存放于repositories中。Ambari 一般有四个 repositories,具体如下:1.Ambari:存放 ambari server, ambari agent, 和相关监控软件2.HDP:存放 stack 软件包3.HDP-UTILS:存放安装 Ambari 和 HDP 的公用包,例如:Ganglia, Nagios, Snappy, Rrd 等4.EPEL:存放企业版本 Linux 所需的额外包,

2022-03-23 16:14:37 5351

原创 推荐系统的那些事儿

问题背景我们周围存在大量的文字、语音、视频等信息,比如网络购物玲琅满目的商品信息,浏览抖音各种类型的信息,一个互联网产品是否具有吸引力,是看其有多智能,能够让用户发较小的时间能够获取他感兴趣的内容,这里面少不了推荐系统的作用了,它已经渗透到我们生活中的方方面面,他们解决的问题的本质都是一一样的,就是为了解决:“信息”过载的情况下,用户如何高效获取感兴趣的信息。在浩如烟海的互联网信息中和用户兴趣点之间,搭建起一座桥梁。逻辑结构推荐系统主要处理的是人和物的关系,描述一个人 可以从性别、年龄、

2022-03-03 20:00:00 310

原创 AI 机器学习实践总结

机器学习基础什么是机器学习机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数,而不是程序员直接编写函数的技术)说起函数就涉及到自变量和因变量,在机器学习中,把自变量叫做特征(feature)多个自变量分别可以定义为X1,X2..Xn,因变量叫做标签(label),可定义为Y,而一批特征和标签的集合,就是机器学习的数据集。机器学习的学习过程就是在已知的数据集的基础上,通过反复的计算,选择最准确的函数去描述数据集中自变量X1,..

2022-03-02 02:15:00 3221 2

原创 在线学习FTRL介绍及基于Flink实现在线学习流程

背景目前互联网已经进入了AI驱动业务发展的阶段,传统的机器学习开发流程基本是以下步骤:数据收集->特征工程->训练模型->评估模型效果->保存模型,并在线上使用训练的有效模型进行预测。这种方式主要存在两个瓶颈:模型更新周期慢,不能有效反映线上的变化,最快小时级别,一般是天级别甚至周级别。另外一个是模型参数少,预测的效果差;模型参数多线上predict的时候需要内存大,QPS无法保证。针对这些问题,一般而言有两种解决方式:一种是采用On-line-learning的算法

2022-03-01 21:39:51 2517

原创 Flink on K8s 企业生产化实践

背景为了解决公司模型&特征迭代的系统性问题,提升算法开发与迭代效率,部门立项了特征平台项目。特征平台旨在解决数据存储分散、口径重复、提取复杂、链路过长等问题,在大数据与算法间架起科学桥梁,提供强有力的样本及特征数据支撑。平台从 Hive 、Hbase 、关系型数据库等大数据 ODS ( Operational Data store ) 层进行快速的数据 ETL ,将数据抽取到特征平台进行管理,并统一了数据出口,供数据科学家、数据工程师、机器学习工程师做算法模型的数据测试、训练、推理及其他数据应用

2022-02-22 11:04:33 1927 1

原创 FLINK原理与实现-内存管理

背景介绍一句话来介绍 Flink 就是 “Stateful Computations Over Streams”。四个基石:Checkpoint、State、Time、Window。Checkpoint 机制,Flink 基于 Chandy-Lamport 算法实现了分布式一致性的快照,从而提供了 exactly-once 的语义。(Flink 基于两阶段提交协议,实现了端到端的 exactly-once 语义保证。内置支持了 Kafka 的端到端保证,并提供了 TwoPhaseCommitSinkF

2022-01-26 14:56:22 1356

原创 Java Hive UDTF 将WKT格式的Geomotry转换成GeoJSON

Java Hive UDTF 将WKT格式的Geomotry转换成GeoJSON背景知识WKT(Well-known text)是一种文本标记语言,用于表示矢量几何对象、空间参照系统及空间参照系统之间的转换。它的二进制表示方式,亦即WKB(well-known-binary)则胜于在传输和在数据库中存储相同的信息。GeoJSON是一种对各种地理数据结构进行编 码的格式,可以表示几何、特征或者特征集合。WTK点 POINT(6 10)线 LINESTRING(44 4,11 44,33 25)面

2021-12-27 10:20:24 2243

原创 jupyter notebook安装部署及实战组合漏斗图绘制

背景:大多数互联网企业都提供有类似Notebook类的产品,采用交互式的方式进行数据分析、数据建模及数据可视化。主要实现大多都是基于jupyter 、Zeppelin进行定制化开发,重点会打通大数据计算、存储及底层资源管理,支持常见的机器学习和深度学习计算框架,算法分析及建模中最常见的是采用jupyter notebook,能够在浏览器中,通过编写python脚本 运行脚本,在脚本块下方展示运行结果。jupyter notebook 可以交互式的开发,再加上拥有丰富的的文本格式、可以图文并茂的展示结果,

2021-12-01 12:13:24 2085

原创 三分钟了解下机器学习

什么是机器学习?机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数,而不是程序员直接编写函数的技术)说起函数就涉及到自变量和因变量,在机器学习中,把自变量叫做特征(feature)多个自变量分别可以定义为X1,X2…Xn,因变量叫做标签(label),可定义为y,而一批特征和标签的集合,就是机器学习的数据集。机器学习的学习过程就是在已知的数据集的基础上,通过反复的计算,选择最准确的函数去描述数据集中自变量X1,X2…Xn 和因变量Y之间

2021-12-01 12:06:43 1686

原创 K8S Pod 停止不掉一直处于Terminating状态问题解决

背景用户反馈一个问题,在删除任务重建任务会提示资源清理不成功,赶紧登陆服务器一通操作 kubectl发现Pod一直处于Terminating状态:管它三七二十一 先执行:kubectl delete pod spark-xxx --grace-period=0 --force --namespace 先强制干掉再细细分析;排查实录:• 先执行:kubectl get nodes -o wide 发现其中一个节点处于 NotReady状态,断定节点有点问题。• 接着执行查看节点具体状态kub

2021-11-08 15:44:21 10501

原创 构建可靠、可扩展与可维护的应用系统

当前的应用系统,通常数据量比较大、数据复杂度比较高以及数据快速多变,可以把这样的系统称之为数据密集型系统,数据密集型系统通常基于不同的模块组件进行构建,根据不同的功能采用不同的组件,各个组件相互配合组合成一个功能强大、满足不同需求场景的应用系统,比如一个互联网系统通常由类似以下结构组成:数据库:主要产品是mysql,用于存储和持久化数据,一遍数据能够多次访问。高速缓存:主要产品有Redis、Memcached缓存那些经常要访问以及复杂计算和操作的数据,用来加快数据的返回,减少数据库压力,扩大系统并发

2021-10-28 22:06:17 3052

原创 一种提升线上ElasticSearch集群读写能力的方法

问题背景:业务在使用ES集群读取ES数据,如果同时向ES集群写任务时,会遇到RT涨的情况,会出现一些抖动,尤其是在计算框架大量增加并发度像ES集群写的情况下会出现抖动,目前的话是大数据计算集群减少并发写。以后还是期望增加并发度,加快写入速度,预期会对ES集群读性能带来挑战目前现状:目前线上是采用的 5台 64C 128G 1THDD,机器配置比较高,使用比较稳定,在集群同时大量读写时出现一些抖动,没有发生过 FGC等状况,平均延迟都在毫秒级 。集群索引所占据的数据量大概为300-500G。 集群的搭建

2021-10-26 15:21:36 2768

原创 记录一次k8s APIService 包含的接口异常导致删除Pod一直处于terminating状态

问题现象:k8s 执行 delete操作发现pod一直处于terminating问题排查执行:kubectl get APIService发现:v1beta1.events.k8s.io Local True 13dv1beta1.extensions Local True 13dv1beta1.metrics.k8s.io

2021-10-12 14:17:16 4432

原创 k8s 监控程序Metric-server pod运行异常报:it doesn‘t contain any IP SANs

查看 pod状态,pod 正在运行 但是pod状态不正常:kubectl get pods -n kube-systemmetrics-server-756b6bb44f-d5tgj 0/1 Running 0 11s查看日志:it doesn’t contain any IP SANs" node=“kubernetes-master”it doesn’t contain any IP SANs" node="node1google

2021-10-11 11:16:50 3622

原创 快速搭建K8s集群一键安装脚本及配置说明

简介:采用kubeadm安装集群非常方便,只不过安装前还需要做些前置的系统配置,如果构建多个节点的集群会涉及到一些重复操作, 这时候最好编写成一个脚本快速的安装部署。基础安装脚本,需要在每台机器上执行#!/bin/bashecho "1、修改DNS配置如有需要"chattr -i /etc/resolv.confcat <<EOF >> /etc/resolv.conf nameserver 10.139.0.246nameserver 10.139.0.247

2021-09-15 21:30:05 3169

原创 Linux系统修改DNS配置文件/etc/resolv.conf 出现Operation not permitted解决方法

DNS服务配置有问题,导致域名解析有误,所以需要重新配置dns服务器在用vim编辑该文件时会提示W10: Warning: Changing a readonly file错误,用root也不行然后去修改文件权限:chmod +w /etc/resolv.conf会报如下错误:chmod: changing permissions of `/etc/resolv.conf': Operation not permitted主要原因是文件元信息 有i属性,文件被设置成i属性 防止系统中某个关键文

2021-09-15 16:02:07 4861 2

原创 k8s集群新增节点重新生成token、certificate-key等操作

K8S通常执行如下语句进行初始化:kubeadm init --config=kubeadm_config.yml --upload-certs 或者:kubeadm init --config kubeadm.yaml 这两条语句的区别就是 第一条生成带certificate key 用来增加master节点的join操作 后一条就只生成了join work节点的从左。在 kubeadm 初始话集群成功后会返回join 命令,里面有 token,discovery-token-ca

2021-09-15 15:36:12 4445

原创 HDFS 是如何实现大数据高容量、高速、可靠的存储和访问的。

对于一个企业大数据应用来说,搞定了大数据存储基本上就解决了大数据应用最重要的问题。Google 三驾马车的第一驾是GFS,Hadoop最先开始设计的就是HDFS,可见分布式存储的重要性,整个大数据生态计算框架多种多样,但是大数据的存储却没有太大的变化,HDFS依旧是众多分布式计算的基础。当然HDFS也有许多缺点,一些对象存储等技术的出现给HDFS的地位带来了挑战,但是HDFS目前还是最重要的大数据存储技术,新的计算框架想要获得广泛应用依旧需要支持HDFS。大数据数据量大、类型多种多样、快速的增长等特性...

2021-08-26 18:47:43 1723

原创 三分钟了解大数据技术发展史

我们常说的大数据技术,大致主要起源于 Google 在 2004 年前后发表的三篇论文,其实数据处理早就存在,每个公司或者个人都有自己的大数据处理系统,并没有形成编程框架和理念,而这三篇论文也就是我们熟知的大数据三驾马车,分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库 BigTable,这三篇论文影响了当今大数据生态,可以称得上大数据的基石,Doug cutting 大佬在基于谷歌的三篇论文开发出了 hadoop hdfs 分布式文件存储、MapReduce

2021-08-19 21:25:32 1184

原创 Zeppelin 集成TDengine 的探索与实践

背景大多数互联网企业都提供有类似Notebook类的产品,采用交互式的方式进行数据分析、数据建模及数据可视化。主要实现大多都是基于jupyter 、Zeppelin进行定制化开发,重点会打通大数据计算、存储及底层资源管理,支持常见的机器学习和深度学习计算框架。TDengine是一个高效的存储、查询、分析时序大数据的平台,专为物联网、车联网、工业互联网、运维监测等优化而设计。 在时序空间大数据处理上,有着自己独到的优势,Zeppelin支持标准jdbc规范的数据源接入,可以在zeppelin notebo

2021-07-29 17:10:40 514 4

原创 那些年踩过的Java日期时间的坑

那些年踩过的Java日期时间的坑在 Java 8 之前,我们处理日期时间需求时,使用 Date、Calender 和 SimpleDateFormat,来声明时间戳、使用日历处理日期和格式化解析日期时间。这 些类的 API 的缺点比较明显,比如可读性差、易用性差、使用起来冗余繁琐,还有线程安全问题。下面来看看常见的java8之前日期时间的常见的问题:Calendar设置问题Calendar设置时间12小时和24小时问题例如:Calendar c = Calendar.getInstance();

2021-02-24 17:55:28 3591 1

原创 记录一下通过springboot rest接口访问mysql返回JSON日期格式问题

问题:Spring Boot 中默认序列化后返回的日期格式类似于这样(时间戳):"create_time": 1537407384500或者是这样(UTC时间格式):"create_time": "2021-02-20T15:16:05.000+0000"原因:Spring中默认使用jackson 对对象进行序列化返回,其中遇到的时间日期字段默认是使用UTC时间进行处理,返回的UTC时间一般不太符合需求,一般在使用 // 指定时区 objectMapper.setTimeZone(

2021-02-22 15:51:45 2831

转载 Could not transfer artifact org.glassfish:javax.el:pom:3.0.1-b06-SNAPSHOT

org.glassfish:javax.el:jar:3.0.1-b06-SNAPSHOT: Failed to read artifact descriptor for org.glassfish:javax.el:jar:3.0.1-b06-SNAPSHOT: Could not transfer artifact org.glassfish:javax.el:pom:3.0.1-b06-SNAPSHOT修改方法把仓库目录中:.m2/repository/org/glassfish/javax.e

2021-02-20 17:04:30 4835 5

原创 flink source 示例demo

DataSource From Collectionpackage com.geekbang.flink.source;import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.datastream.DataStreamSource;import org.apache.flink.streaming.api.environment.StreamExecution

2021-01-06 10:19:59 118

原创 flink No ExecutorFactory found to execute the application

报错日志如下Exception in thread "main" java.lang.IllegalStateException: No ExecutorFactory found to execute the application. at org.apache.flink.core.execution.DefaultExecutorServiceLoader.getExecutorFactory(DefaultExecutorServiceLoader.java:84) at org.apache

2021-01-05 19:47:44 593

原创 pyflink udf 提交到本地集群执行报错No module named pyflink

背景mac环境 flink 1.11.2 执行pyflinkflink run -py /Users/haozhang/from_hive_to_mysql.pypyflink udf大概内容@udf(input_types=[DataTypes.ARRAY(DataTypes.INT())], result_type=DataTypes.STRING())def changeIntArrayToString(data): return str(data)t_env.execute_

2021-01-04 16:30:50 5398 1

转载 Apache Flink 1.12.0 正式发布,流批一体真正统一运行!

Apache Flink 社区很荣幸地宣布 Flink 1.12.0 版本正式发布!近 300 位贡献者参与了 Flink 1.12.0 的开发,提交了超过 1000 多个修复或优化。这些修改极大地提高了 Flink 的可用性,并且简化(且统一)了 Flink 的整个 API 栈。其中一些比较重要的修改包括:在 DataStream API 上添加了高效的批执行模式的支持。这是批处理和流处理实现真正统一的运行时的一个重要里程碑。实现了基于Kubernetes的高可用性(HA)方案,作为生产环境中,Zo

2020-12-14 11:51:16 2337

翻译 How to Read an Academic Article-如何阅读学术文章

如何阅读学术文章注意:没有任何一种样式适合所有人!进行略读,扫描,处理的基本步骤…阅读摘要(如果提供了的话)阅读介绍。阅读结论。略过中间部分,查看章节标题,表格,图形等,以尝试了解文章的样式和流程。文章是主要讲方法论的,概念的,理论的(语言或数学的),经验的还是其他类型的文章?它主要是一项调查,一种新颖的理论贡献,对现有理论或技术的经验应用,评论或其他吗?返回并快速阅读整个内容,跳过方程式,大多数图形和表格。返回并仔细阅读整个内容,着重看似最重要的部分或区域。掌握了作者试图提

2020-12-08 09:57:06 995

原创 flink sql 从mysql读数据写入到ElasticSearch实践

背景主要是实践下从mysql读数据写入到ElasticSearch,以及总结下相关问题和想法参考链接:https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/dev/table/connectors/elasticsearch.html先决条件添加maven依赖,从mysql读取数据这两个依赖必不可少 <dependency> <groupId>org.apac

2020-12-03 14:21:52 3761 2

原创 flink sql 从mysql读数据写入到mysql实践

背景主要是实践下从mysql读数据写入到mysql,期间也会遇到的一些问题。参考链接:https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/connectors/jdbc.html先决条件添加maven依赖,从mysql读取数据到mysql这两个依赖必不可少 <dependency> <groupId>org.apache.flink</g

2020-12-03 11:45:40 6084 3

原创 flink sql 从filesystem读取数据写入filesystem实践 --错误记录

最近在验证flink sql 从source 读取数据写入到sink,验证一些场景,下面是简单的从一个文件当中读取数据写入到一个文件当中,这其中也遇到不少问题import org.apache.flink.table.api.EnvironmentSettings;import org.apache.flink.table.api.TableEnvironment;//前提条件,在tmp目录下的input文件,随便输入一些单词就好public class JavaSqlWordDemo { pu

2020-12-03 10:50:46 2174 1

原创 Flink起步-本地安装和启动

一、Flink 运行基础环境工具描述jdkjdk 1.8+mavenmaven 3,最好maven 3.25源代码https://github.com/apache/flink系统mac os/linux二、下载解压flink安装包$ tar -xzf flink-1.11.2-bin-scala_2.11.tgz$ cd flink-1.11.2-bin-scala_2.11三、单机 Standalone 的方式运行 Flink(base) h

2020-11-25 14:13:41 612

原创 浅谈docker技术

docker的作用?从2010云计算开始火起来,什么Iass、Pass、SasS出现了许多年,尤其是pass方面更需要一个这样的平台解决应用打包 、发布部署问题,需要解决开发本地环境,与线上环境的一致性。实际上一套pass平台无论是开发还是运维都需要发很大的精力去理解去学习。而大概从2013年docker的出现颠覆了这些做法,Docker 镜像解决的,恰恰就是打包这个根本性的问题。Docker 项目给 PaaS 带来的改变,其实是提供了一种非常便利的打包 机制。这种机制直接打包了应用运行所需要的整个包.

2020-11-20 18:13:45 162

原创 flink java 代码引入 scala tuple2包导致失败

代码混用在java代码编写代码时候不知不觉就引入了,引入了scala包, <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_${scala.binary.version}</artifactId> <version>${flink.version}&lt

2020-11-20 15:01:17 1556

原创 getResourceAsStream returns null--Read file from resources folder in Spring Boot

https://www.codota.com/code/java/methods/java.lang.ClassLoader/getResourceAsStream采用springboot 读取配置文件,经常会遇到配置文件找不到问题,通常是上下文找不到文件,最终极的解决方案是把配置文件加入加入到classpath后去读取。package utils;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import org.springfra

2020-08-31 15:51:51 306

原创 jupyter notebook 集成R内核

Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。 Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。智能钛为了方便开发人员做数据分析集成了jupyter notebook功能,支持R内核所做的工作如下:R环境安装主要是通过apt-get直接安装RUN apt-ge

2020-08-09 20:08:32 558

原创 PySpark包依赖问题解决方案及实践

摘要:hadoop yarn调度pyspark在使用过程中,使用场景不一致,需要安装一些三方依赖,尤其在机器学习算法方面依赖许多科学包如numpy、pandas 、matlib等等,安装这些依赖是一个非常痛苦的过程,本章结合ti产品在私有化过程中依赖包及版本升级等为题进行简单介绍。Spark on yarn分为client模式和cluster模式,在client模式下driver 会运行在提交节点上,该节点也可能不是yarn集群内部节点,这种方式可以根据自己的需要安装软件和依赖,以支撑spark app

2020-08-09 20:01:07 2937 1

nodejs.pdf

nodesjs前端开发 nodejs the right way,theright way

2019-08-25

云计算负载均衡

关于云计算 负载均衡的资料,一般关于hadoop方面

2012-02-28

移动云计算

关于云计算方面的资料尤其是与移动终端云计算相关

2012-02-28

华为软件编码规范和范例

好的编码规范 利于自己和他人维护,利国利民 功在千秋

2011-06-03

系统集成项目管理工程师考试大纲2011

计算机软件水平考试:关于系统集成项目管理工程师考试大纲2011年

2011-06-03

C#入门经典(第五版)完整源代码

C#权威入门级别经典书籍,让您在学c#中起到事半功倍的作用,好资源不要错过啊

2011-06-03

无线路由器密码破解详解

如果你不想自己拉宽带,如果你看到别的无线网络 垂涎三尺,就可以参看这篇文章 ,让你能免费上网爽翻天。

2011-06-03

数据结构中树与二叉树详解

关于数据结构中树与二叉树相关内容详解,包括概念以及实例等等

2011-06-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除