自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

白杨Shayne的博客

记性很差,写下来给自己看

  • 博客(51)
  • 收藏
  • 关注

转载 转:一位资深程序员大牛给予Java初学者的学习路线建议

Java学习这一部分其实也算是今天的重点,这一部分用来回答很多群里的朋友所问过的问题,那就是你是如何学习Java的,能不能给点建议?今天我是打算来点干货,因此咱们就不说一些学习方法和技巧了,直接来谈每个阶段要学习的内容甚至是一些书籍。这一部分的内容,同样适用于一些希望转行到Java的同学。  在大家看之前,我要先声明两点。1、由于我本人是Java后端开发出身,因此所推荐的学习内容是Java W

2018-01-28 19:50:59 225

原创 解决Hadoop审计日志hdfs-audit.log过大的问题

新搭建的Hadoop环境没怎么用,就一个环境天天空跑,结果今天运维告诉我说有一台服务器磁盘超过80%了,真是太奇怪了,平台上就跑了几个spark测试程序,哪来的数据呢?终于发现在Hadoop的日志目录下,有一堆hdfs-audit.log日志,并且每个都有好几百M,删除之后,跟目录瞬间从81%减低到了42%;过了几天后,再检查服务器,发现磁盘根目录使用率没有明显增大,问题完美解决了~问题是暂时解决了,可这样不是长久之计,审计日志还在写,过几天还得来删除。用df查看,是根目录,还不是数据盘;

2023-08-02 18:25:13 2550 1

原创 解决一个Yarn异常:Alerts for Timeline service 2.0 Reader

环境是用Ambari搭建的大数据环境,版本是2.7.3,Hdp是3.1.0;我们用这一套组件搭建了好几个环境,都有这个异常告警,但hive、spark都运行正常,可以正常使用,所以也一直没有去费时间解决这个告警问题。

2023-08-02 18:12:24 978 1

原创 解决一个Sqoop抽数慢的问题,yarn的ATSv2嵌入式HBASE崩溃引起

新搭建的一个Hadoop环境,用Sqoop批量抽数的时候发现特别慢,我们正常情况下是一个表一分钟左右,批量抽十几个表,也就是10分钟的样子,结果发现用了2个小时:查看yarn日志发现有如下情况:主要有两个情况:经网上查询得知,这个是因为,需要重置HBASE数据库步骤如下。

2023-08-02 17:54:46 2173

原创 苹果手机没法访问Fildder代理服务怎么办

Fildder4--Tools--Options--HTTPS--Actions--"Reset All Certifcates" 或 在windows证书管理中挨个找到DO_NOT_TRUST_FiddlerRoot并删除。重启fildder后,手机就可以下载证书了, 下载后手机提示要在设置APP的描述文件那里信任证书,浏览器访问http://ip:port后无响应,白屏,或有“无法使用跳转网络”的提示。设置-通用-VPN与设备管理-DO_NOT_TRUST_FiddlerRoot,

2023-07-02 20:00:20 1069

原创 国产自研开源大数据管理平台DataSophon

上面是贴的官方的介绍文案,从支持的组件来看,的确非常全面,可以说部署大数据集群,只要这一个平台就够了。同类型的平台,CDH被Ambari收购了,HDP不给下载了,要想使用CDH或者HDP只能去下载之前别人保存的安装包,Ambari公司把CDH跟HDP合并一下,又搞出一个收费版本CDP来,DataSophon出来的可以说是正当其时。官网:https://datasophon.github.io/datasophon-website/

2023-07-02 01:23:55 3024 3

原创 用4c8g单机ClickHouse完美解决亿级数据量企业画像查询毫秒级响应

ClickHouse是一个开源免费的,面向列的MPP架构数据分析数据库(大规模并行处理),由俄罗斯Yandex为OLAP和大数据用例创建。打开页面第一次查询,会慢一些,大概在2s以内,其它的查询基本上在200ms以内,虽然首次查询慢了一些,但满足合同需求,问题不大。用下来整体感觉还是很惊艳的,因为单机扛住了亿级数据量的查询。

2023-07-02 01:18:45 901

原创 Flink CDC、OGG、Debezium等基于日志开源CDC方案对比

CDC 的全称是,在广义的概念上,只要能捕获数据变更的技术,我们都可以称为 CDC。我们目前通常描述的CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。

2023-06-17 01:11:04 5200

原创 任务调度器-DolphinScheduler调优-并发设置

这是两个非常有用的参数,通过控制并发的任务和流程,从而控制同一时间需要的资源,避免任务一下全部拉起来,导致资源耗尽使进程退出;设置了并发后,等于是把资源使用的峰值给抹平了,master-server和worker-server没有再出现进程退出和内存分配失败的异常。

2023-06-01 22:43:00 1754

原创 任务调度器-DolphinScheduler配置告警

调度器必不可少的就是任务失败告警,前面已经安装好了DolphinScheduler,今天在海豚上配置一下告警试试,海豚支持短信告警、邮件告警等等,告警类型非常丰富,因为工作上用到邮件和钉钉进行沟通交流,所以今天试试邮件告警以及钉钉告警配置。

2023-06-01 22:21:48 4485 2

原创 任务调度器-DolphinScheduler3集群安装

dolphinscheduler-master master模块,提供工作流管理和编排服务。dolphinscheduler-worker worker模块,提供任务执行管理服务。dolphinscheduler-alert 告警模块,提供 AlertServer 服务。dolphinscheduler-api web应用模块,提供 ApiServer 服务。

2023-05-23 22:13:51 570

原创 Python爬虫-使用Scrapy框架爬取某网站热点新闻排行并保存数据库

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便Scrapy 使用了 Twisted’twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。

2023-05-19 22:18:44 2058 7

原创 Python爬虫-使用PlayWright模拟百度登录

Playwright是2021年微软开源的一个项目「playwright-python」。针对 Python 语言的纯自动化工具,它可以通过单个API自动执行 Chromium,Firefox 和 WebKit 浏览器,同时支持以无头模式、有头模式运行。并且最牛的功能是可以通过录制自动生成代码,就是打开录制功能后,用鼠标在页面上操作,它可以根据你的操作生成相应的代码,而且这个代码可直接运行。下面我就来试试这个牛逼克拉斯的功能。

2023-05-19 21:40:10 1447

原创 ClickHouse离线集群安装与使用

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。是现在比较火的一个大数据分析组件,可用于报表底层数据、实时数据库等场景。

2023-05-15 00:43:39 937 3

原创 ES的可视化工具-Kibana的安装和使用

Kibana 是为 Elasticsearch设计的开源分析和可视化平台。你可以使用 Kibana 来搜索,查看存储在 Elasticsearch 索引中的数据并与之交互。你可以很容易实现高级的数据分析和可视化,以图表的形式展现出来。下面是Kibana的安装步骤,控制台可以非常方便的来调用es的api,强烈推荐使用!

2023-05-14 18:00:15 1915 1

原创 缓存架构的读写顺序

常见的缓荐架构如上,写操作的顺序是(1)淘汰cache (2)写数据库读操作的顺序是(1)读cache,如果cache hit则返回 (2)如果cache miss,则读从库 (3)读从库后将数据放回cache

2023-05-14 17:47:54 91

原创 数据标准的“六性”

规范性:数据内容、命名、格式、取值等规范统一。如时间信息都以yyyy-mm-dd格式存储,或者“性别”属性中,应使用“M”、“F”表示,还是用“1”,“0”表示,还是用“男”、“女”表示。 完整性:数据完整、没有缺失(包括看得见的缺失和看不见的缺失)。如人员信息完整涵盖性别、年龄等,或者身份证号码不能为空。 唯一性:同源或跨源的数据在信息含义上是一致不冲突的。如同一个人的性别都是一致的。 一致性:记录和字段都没有重复。如同一个ID没有重复记录。 准确性:数据内容及其含义是正确的。例如年龄在合理范

2023-05-14 17:40:45 2171

原创 Kettle中调用API接口时,URL中中文乱码的解决办法

region=" + encodeURIComponent(广东)var url = "http://xxx.xxx.xxx.xxx:8080/getdata?region=广东"

2023-05-14 17:35:46 426

原创 数据仓库、数据湖、数据中台、数据中台的概念区别

传统数据仓库,第一次明确了数据分析的应用场景应该用单独的解决方案去实现,不再依赖于业务的数据库。在模型设计上,提出了数据仓库模型设计的方法论,为后来数据分析的大规模应用奠定了基础。 大数据平台是面向数据研发场景的,覆盖数据研发的完整链路的数据工作台 数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。 数据中台的核心,是避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能数据应用

2023-05-14 11:59:49 123

原创 使用Flink MySQL cdc分别sink到ES、Kafka、Hudi

进入hudi目录,修改hudi/pom.xml,修改对应组件的版本,由于flink使用的是scala-2.11版本,spark3.x版本以上默认使用scala-2.12预编译,为了节省时间,我们在此使用spark2.4.8以scala-2.11预编译的版本,对应的hadoop版本为2.7。- 修改hadoop-2.7.3/etc/hadoop/hdfs-site.xml,如果目录不存在,给创建上。- 修改hadoop-2.7.3/etc/hadoop/mapred-site.xml。

2023-05-14 11:53:04 1588

原创 服务器配置选择以及带宽配置选择

每个页面20k字节*100万个页面/1024=19531M字节=19G字节,19531M/9.6小时=2034M/小时=578K字节/s,如果请求是均匀分布的,需要5M(640K字节)带宽(5Mb=640KB 注意大小写,b是位,B是字节,差了8倍),但所有请求不可能是均匀分布的,当有高峰时5M带宽一定不够,X2倍就是10M带宽。表示一天中有80%的请求发生在一天的40%的时间内。24小时的40%是9.6小时,有80%的请求发生一天的9.6个小时当中(很适合互联网的应用,白天请求多,晚上请求少)。

2023-05-14 11:22:05 374

转载 关于 Apache Doris 和 DorisDB、StarRocks 的关系

2013 年,我们把 Doris 进行了 MPP 框架的升级,并将新系统命名为 Palo ,2017 年我们以百度 Palo 的名字在 GitHub 上进行了开源,2018 年贡献给 Apache 基金会时,由于与国外数据库厂商重名,因此选择用回最初的名字,这就是 Apache Doris 的由来。从 2021 年下半年开始,我们就在努力地筹备 Apache Doris 毕业的事宜,横在我们面前的阻碍,其中最重要的事情之一就是 DorisDB 对 Apache Doris 的品牌侵权问题。

2023-05-14 11:19:13 8628

原创 ES报错FORBIDDEN/12/index read-only / allow delete (api)的解决办法

错误:blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];

2023-05-14 11:01:39 595

原创 ElasticSearch的常用API接口

查看集群状态:http://xxx.xxx.xxx.xxx:19200/_cat/health?v 统计集群信息:http://xxx.xxx.xxx.xxx:19200/_cluster/stats?human&pretty 查看节点状态:http://xxx.xxx.xxx.xxx:19200/_cat/nodes?v 统计节点:http://xxx.xxx.xxx.xxx:19200/_nodes/stats 索引监控:http://xxx.xxx.xxx.xxx:19200/_cat

2023-05-14 10:59:28 301

原创 Spark插入hive表动态分区提示分区数不能大于1000的解决办法

移动要在参数前面加上spark.hadoop,不然不起作用。1.hive分区数不能大于1000。

2023-05-14 10:56:13 684

原创 Hbase的命令行操作

disable "表名"

2023-05-14 10:53:41 1209

原创 HBase的RowKey设计原则

HBase中的行是按照rowkey的字典顺序排序的,这种设计优化了scan操作,可以将相关的行以及会被一起读取的行存取在临近位置,便于scan。然而糟糕的rowkey设计是热点的源头。热点发生在大量的client直接访问集群的一个或极少数个节点(访问可能是读,写或者其他操作)。大量访问会使热点region所在的单个机器超出自身承受能力,引起性能下降甚至region不可用,这也会影响同一个RegionServer上的其他region,由于主机无法服务其他region的请求。

2023-05-14 10:50:45 976

原创 Hive窗口函数

ROWS是物理窗口,从行数上控制窗口的尺寸的;RANGE是逻辑窗口,从列值上控制窗口的尺寸。首先,我们要知道什么是窗口子句。

2023-05-14 10:03:58 67

原创 Mysql数据库如何限制密码重试次数,避免密码被暴力破解

【代码】Mysql数据库如何限制密码重试次数,避免密码被暴力破解。

2023-05-14 09:07:06 618

原创 设置Mysql密码有效期

按这样设置了密码有效期后,3个月就得改一次密码,是不是很繁琐,有一些账号没有必要频繁的修改密码,那该怎么办呢?这个配置是以天为单位,这里是90天,3个月过期;用户特定策略:禁用密码过期。那就设置密码永不过期吧~

2023-05-14 09:04:34 3489

原创 设置Mysql密码复杂度

这一行的意思是数据库重启的时候自动加载密码复杂度插件,不配置的话,一般没问题,但遇到数据库迁移的话,可能会启动数据库失败,为保险起见,还是加上这一行。密码负责度策略,这里设置为1,中复杂度。开启密码复杂度验证插件。

2023-05-14 08:59:32 2502

原创 如何安装Mysql的审计插件

最近项目要验收了,数据库的一个验收标准就是要有数据库审计,所以参照资料安装了Mysql的审计插件。

2023-05-14 08:50:54 1227

原创 Mysql安装后如何查询默认密码

Mysql安装后,会自动给root用户生成一个默认密码,一般安装过程中会有提示,但如果安装过程中没注意,那安装后就没法用root登录了。如果是其它用户安装的,需要把/root替换成其它用户的home目录,比如oper用户,默认的home目录就是/home/oper/

2023-05-14 08:41:04 1734

原创 Java中触发主GC条件

由于是否进行主GC由JVM根据系统环境决定,而系统环境在不断的变化当中,所以主GC的运行具有不确定性,无法预计它何时必然出现,但可以确定的是对一个长期运行的应用来说,其主GC是反复进行的。

2023-05-13 18:19:45 870

原创 Scala如何使用变长参数,动态参数个数

可变参数:定义函数时指定最后一个参数可以重复使用(变长参数),Scala使用“*”来指明。

2023-05-13 18:16:08 106

原创 Oracle12c的启停顺序和命令

4、$lsnrctl reload 重启监听器,此命令可以代替lsnrctl stop,lsnrctl start。2、$lsnrctl start [listener-name] 启动所有的监听器,可以指定名字来启动特定的监听器。3、$lsnrctl stop [listener-name] 关闭所有的监听器,可以指定名字来关闭特定的监听器。5、lsnrctl hep 可以显示所有可用的监听器命令。1、$lsnrctl status:检查当前监听器的状态。

2023-05-13 18:14:00 839

原创 安装使用Oracle中出现的一些问题

2.关闭数据库重启时出现:Specified value of MEMORY_TARGET is too small, needs to be at least 1536M。修改pfile中的MEMORY_TARGET为1536M。停止数据库,从pfile创建spfile。使用spfile启动:startup。用pfile启动,成功。

2023-05-13 18:10:56 419

原创 Oracle 12c安装

安装必须的安装包:结果如下: 安装不成功的再使用yum install xxx来安装,安装后如下: 修改操作系统参数:使用如下命令生效:修改文件句柄数配置vim /etc/security/limits.conf加入如下值配置swap分区,由于我的默认有3G,所以暂不做处理。创建用户组和密码:设置许可, /etc/selinux/config关闭防火墙创建目录,授权在root用户下执行:在Oracle用户下执行:执行安装程序:等待一会儿,弹出安装界

2023-05-13 18:08:23 1460

原创 常用的intellij的快捷键

选中文本,按Ctrl+Shift+F7 ,高亮显示所有该文本,按Esc高亮消失。ctrl+shift+enter(智能完善代码 如 if())ctrl+shift+backspace(最后编辑的地方)ctrl+shift+up/down(移动行、合并选中行)ctrl+shift+space(new 后面自动提示)ctrl+alt+t(自动生成try,catch)ctrl+shift+i(快速查看实现)alt+shift+c(最近变更历史)ctrl+shift+/ (注释)ctrl+shift+v(粘贴)

2023-05-13 17:40:55 740

原创 Python爬虫-使用Selenium模拟百度登录

使用selenium模拟百度登录

2023-05-13 17:30:10 2801 4

地址转换百度地图经纬度源代码

地址转换百度地图经纬度源代码

2023-07-02

Datax的StarRocks数据库写插件

2023最新版本的Datax的StarRocks数据库写插件

2023-06-19

Java面试宝典2023版.doc

Java面试宝典2023版.doc

2023-05-14

kettle连接ClickHouse驱动包.rar

kettle连接ClickHouse驱动包.rar

2023-05-14

selenium的Chrome浏览器驱动

selenium的Chrome浏览器驱动, 放到python的script目录下 在命令行下执行chromedriver,就可以开启

2023-05-14

天猫抢茅台插件天猫抢茅台插件

天猫抢茅台插件,亲测可用,供学习使用

2023-05-14

京东抢茅台代码京东抢茅台代码

京东抢茅台代码,测试可用,供学习使用

2023-05-14

京东应用架构设计.rar

京东应用架构设计.rar

2023-05-14

通过案例实战掌握Spark编程模型内幕.pptx

通过案例实战掌握Spark编程模型内幕

2023-05-14

spark原理示意图.rar

1-Overview.pdf 2-JobLogicalPlan.pdf 3-JobPhysicalPlan.pdf 4-shuffleDetails.pdf 5-Architecture.pdf 6-CacheAndCheckpoint.pdf 7-Broadcast.pdf

2023-05-14

HBase用户手册-v2.2.docx

2 总体介绍 7 2.1 整体介绍 7 2.2 hbase的应用 7 2.3 HBase的体系结构简介 8 2.4 HBase的访问方式 9 2.5 适用场景 9 3 HBase使用流程 10 3.1 流程图 10 4 使用约定 12 4.1 权限管理 12 4.2 命名规范 12 5 模型设计 13 5.1 相关概念 13 5.2 模型结构 13 5.3 设计原则 15 6 表设计 17 6.1 表属性说明 17 6.2 表创建实例 17 7 bulk loading的使用 19 7.1 bulkload介绍 19 7.2 具体使用方法 19 7.2.1 往hdfs中put文件: 19 7.2.2 用ImportTsv方法生成Hfile 20 7.2.3 利用Hfile进行加载 21 7.2.4 put方式直接加载 22 8 HBase-client 24 8.1 log4j 24 8.2 configuration 25 8.3 Cluster Connections 25 8.4 Connection Pooling 26 8.5 create table 26 8.6 sing

2023-05-14

HIVE函数参考手册.docx

包含hive函数的清单,参数,及使用方法

2023-05-14

hql开发模板.sql

hive脚本固定参数 建表模板 导入数据模板等

2023-05-14

Hive使用手册Hive使用手册

目录 1 Hive 概念与连接使用: 2 2 Hive支持的数据类型: 2 2.1原子数据类型: 2 2.2复杂数据类型: 2 2.3 Hive类型转换: 3 3 Hive创建/删除数据库 3 3.1创建数据库: 3 3.2 删除数据库: 3 4 Hive 表相关语句 3 4.1 Hive 建表: 3 4.1.1使用LIKE关键字创建一个与已有表模式相同的新表: 4 4.2 Hive 修改表 4 4.2.1 Hive 新增一个字段: 4 4.2.2 Hive 修改字段名/字段类型/字段位置/字段注释: 4 4.2.3 Hive 重命名表名: 4 4.3Hive 删除表: 4 5 Hive 分区 4 5.1 Hive 添加分区 4 5.2 Hive 删除分区 5 6 SHOW语句 5 7 DESCRIBE语句 5 8 加载数据 5 9表连接 6 10 子查询 6 11 UNION ALL 6 12 Hive使用注意点: 6 13 Hive优化 9

2023-05-14

Hive窗口函数,定义、demo

Hive窗口函数的定义,demo等

2023-05-14

clickhouse的jdbc驱动

clickhouse驱动,jdbc驱动

2023-05-14

hudi-spark3.1.2-bundle-2.12-0.10.1.jar

hudi-spark3.1.2-bundle_2.12-0.10.1.jar

2023-05-06

Hadoop2.9.2+Spark2.4.8安装手册.txt

Hadoop2.9.2+Spark2.4.8安装手册.txt

2023-05-06

国发改指标体系-中国营商环境评价指标体系新旧比较.pdf

国发改指标体系--中国营商环境评价指标体系新旧比较.pdf

2023-05-06

180款国外创意精美PPT图表-4

180款国外创意精美PPT图表-4

2023-05-06

PPT模板,三分钟学经营-动态模板20

精美PPT模板,三分钟学经营-动态模板20

2023-05-06

罗兰贝格PPT模板-436页

436个ppt模板,各种图表应有尽有

2023-05-06

基于Saprk的机器学习.pdf

• 主题模型 Topic modeling and LDA • 在线LDA算法 • 应用和性能调优 • 深度学习 • 卷积神经网络

2023-05-05

spark原理示意图,执行计划,shuffle,架构,检查点,缓存,广播

1-Overview.pdf; 2-JobLogicalPlan.pdf 3-JobPhysicalPlan 4-shuffleDetails.pdf 5-Architecture.pdf 6-CacheAndCheckpoint.pdf 7-Broadcast.pdf

2023-05-05

ChatGPT研究框架2023

ChatGPT研究框架2023 市场概况:ChatGPT——AI平民化里程碑 01 技术路径:基于人类反馈系统,ChatGPT助力跨模态AI生成应用 02 行业进程:AIGC多模态交互功能持续演化,奠定多场景商用基础 03 商业方向:多领域多功能应用密集落地,ChatGPT商用前景可期

2023-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除