白杨Shayne-CSDN博客

转载转：一位资深程序员大牛给予Java初学者的学习路线建议

Java学习这一部分其实也算是今天的重点，这一部分用来回答很多群里的朋友所问过的问题，那就是你是如何学习Java的，能不能给点建议？今天我是打算来点干货，因此咱们就不说一些学习方法和技巧了，直接来谈每个阶段要学习的内容甚至是一些书籍。这一部分的内容，同样适用于一些希望转行到Java的同学。　　在大家看之前，我要先声明两点。1、由于我本人是Java后端开发出身，因此所推荐的学习内容是Java W

2018-01-28 19:50:59 265

原创解决Hadoop审计日志hdfs-audit.log过大的问题

新搭建的Hadoop环境没怎么用，就一个环境天天空跑，结果今天运维告诉我说有一台服务器磁盘超过80%了，真是太奇怪了，平台上就跑了几个spark测试程序，哪来的数据呢？终于发现在Hadoop的日志目录下，有一堆hdfs-audit.log日志，并且每个都有好几百M，删除之后，跟目录瞬间从81%减低到了42%；过了几天后，再检查服务器，发现磁盘根目录使用率没有明显增大，问题完美解决了~问题是暂时解决了，可这样不是长久之计，审计日志还在写，过几天还得来删除。用df查看，是根目录，还不是数据盘；

2023-08-02 18:25:13 3399 1

原创解决一个Yarn异常：Alerts for Timeline service 2.0 Reader

环境是用Ambari搭建的大数据环境，版本是2.7.3，Hdp是3.1.0；我们用这一套组件搭建了好几个环境，都有这个异常告警，但hive、spark都运行正常，可以正常使用，所以也一直没有去费时间解决这个告警问题。

2023-08-02 18:12:24 1485 2

原创解决一个Sqoop抽数慢的问题，yarn的ATSv2嵌入式HBASE崩溃引起

新搭建的一个Hadoop环境，用Sqoop批量抽数的时候发现特别慢，我们正常情况下是一个表一分钟左右，批量抽十几个表，也就是10分钟的样子，结果发现用了2个小时：查看yarn日志发现有如下情况：主要有两个情况：经网上查询得知，这个是因为，需要重置HBASE数据库步骤如下。

2023-08-02 17:54:46 2448

原创苹果手机没法访问Fildder代理服务怎么办

Fildder4--Tools--Options--HTTPS--Actions--"Reset All Certifcates" 或在windows证书管理中挨个找到DO_NOT_TRUST_FiddlerRoot并删除。重启fildder后，手机就可以下载证书了，下载后手机提示要在设置APP的描述文件那里信任证书，浏览器访问http://ip:port后无响应，白屏，或有“无法使用跳转网络”的提示。设置-通用-VPN与设备管理-DO_NOT_TRUST_FiddlerRoot，

2023-07-02 20:00:20 1682

原创国产自研开源大数据管理平台DataSophon

上面是贴的官方的介绍文案，从支持的组件来看，的确非常全面，可以说部署大数据集群，只要这一个平台就够了。同类型的平台，CDH被Ambari收购了，HDP不给下载了，要想使用CDH或者HDP只能去下载之前别人保存的安装包，Ambari公司把CDH跟HDP合并一下，又搞出一个收费版本CDP来，DataSophon出来的可以说是正当其时。官网：https://datasophon.github.io/datasophon-website/

2023-07-02 01:23:55 5335 3

原创用4c8g单机ClickHouse完美解决亿级数据量企业画像查询毫秒级响应

ClickHouse是一个开源免费的，面向列的MPP架构数据分析数据库(大规模并行处理)，由俄罗斯Yandex为OLAP和大数据用例创建。打开页面第一次查询，会慢一些，大概在2s以内，其它的查询基本上在200ms以内，虽然首次查询慢了一些，但满足合同需求，问题不大。用下来整体感觉还是很惊艳的，因为单机扛住了亿级数据量的查询。

2023-07-02 01:18:45 1477

原创 Flink CDC、OGG、Debezium等基于日志开源CDC方案对比

CDC 的全称是，在广义的概念上，只要能捕获数据变更的技术，我们都可以称为 CDC。我们目前通常描述的CDC 技术主要面向数据库的变更，是一种用于捕获数据库中数据变更的技术。

2023-06-17 01:11:04 7207 1

原创任务调度器-DolphinScheduler调优-并发设置

这是两个非常有用的参数，通过控制并发的任务和流程，从而控制同一时间需要的资源，避免任务一下全部拉起来，导致资源耗尽使进程退出；设置了并发后，等于是把资源使用的峰值给抹平了，master-server和worker-server没有再出现进程退出和内存分配失败的异常。

2023-06-01 22:43:00 3111

原创任务调度器-DolphinScheduler配置告警

调度器必不可少的就是任务失败告警，前面已经安装好了DolphinScheduler，今天在海豚上配置一下告警试试，海豚支持短信告警、邮件告警等等，告警类型非常丰富，因为工作上用到邮件和钉钉进行沟通交流，所以今天试试邮件告警以及钉钉告警配置。

2023-06-01 22:21:48 8122 2

原创任务调度器-DolphinScheduler3集群安装

dolphinscheduler-master master模块，提供工作流管理和编排服务。dolphinscheduler-worker worker模块，提供任务执行管理服务。dolphinscheduler-alert 告警模块，提供 AlertServer 服务。dolphinscheduler-api web应用模块，提供 ApiServer 服务。

2023-05-23 22:13:51 734

原创 Python爬虫-使用Scrapy框架爬取某网站热点新闻排行并保存数据库

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便Scrapy 使用了 Twisted’twɪstɪd异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

2023-05-19 22:18:44 2464 7

原创 Python爬虫-使用PlayWright模拟百度登录

Playwright是2021年微软开源的一个项目「playwright-python」。针对 Python 语言的纯自动化工具，它可以通过单个API自动执行 Chromium，Firefox 和 WebKit 浏览器，同时支持以无头模式、有头模式运行。并且最牛的功能是可以通过录制自动生成代码，就是打开录制功能后，用鼠标在页面上操作，它可以根据你的操作生成相应的代码，而且这个代码可直接运行。下面我就来试试这个牛逼克拉斯的功能。

2023-05-19 21:40:10 2237

原创 ClickHouse离线集群安装与使用

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。是现在比较火的一个大数据分析组件，可用于报表底层数据、实时数据库等场景。

2023-05-15 00:43:39 1795 3

原创 ES的可视化工具-Kibana的安装和使用

Kibana 是为 Elasticsearch设计的开源分析和可视化平台。你可以使用 Kibana 来搜索，查看存储在 Elasticsearch 索引中的数据并与之交互。你可以很容易实现高级的数据分析和可视化，以图表的形式展现出来。下面是Kibana的安装步骤，控制台可以非常方便的来调用es的api，强烈推荐使用！

2023-05-14 18:00:15 2434 1

原创缓存架构的读写顺序

常见的缓荐架构如上，写操作的顺序是（1）淘汰cache （2）写数据库读操作的顺序是（1）读cache，如果cache hit则返回（2）如果cache miss,则读从库（3）读从库后将数据放回cache

2023-05-14 17:47:54 154

原创数据标准的“六性”

规范性：数据内容、命名、格式、取值等规范统一。如时间信息都以yyyy-mm-dd格式存储，或者“性别”属性中，应使用“M”、“F”表示，还是用“1”，“0”表示，还是用“男”、“女”表示。完整性：数据完整、没有缺失（包括看得见的缺失和看不见的缺失）。如人员信息完整涵盖性别、年龄等，或者身份证号码不能为空。唯一性：同源或跨源的数据在信息含义上是一致不冲突的。如同一个人的性别都是一致的。一致性：记录和字段都没有重复。如同一个ID没有重复记录。准确性：数据内容及其含义是正确的。例如年龄在合理范

2023-05-14 17:40:45 3098

原创 Kettle中调用API接口时，URL中中文乱码的解决办法

region=" + encodeURIComponent(广东)var url = "http://xxx.xxx.xxx.xxx:8080/getdata?region=广东"

2023-05-14 17:35:46 674

原创数据仓库、数据湖、数据中台、数据中台的概念区别

传统数据仓库，第一次明确了数据分析的应用场景应该用单独的解决方案去实现，不再依赖于业务的数据库。在模型设计上，提出了数据仓库模型设计的方法论，为后来数据分析的大规模应用奠定了基础。大数据平台是面向数据研发场景的，覆盖数据研发的完整链路的数据工作台数据湖（Data Lake）是一个以原始格式存储数据的存储库或系统。数据中台的核心，是避免数据的重复计算，通过数据服务化，提高数据的共享能力，赋能数据应用

2023-05-14 11:59:49 213

原创使用Flink MySQL cdc分别sink到ES、Kafka、Hudi

进入hudi目录，修改hudi/pom.xml，修改对应组件的版本，由于flink使用的是scala-2.11版本，spark3.x版本以上默认使用scala-2.12预编译，为了节省时间，我们在此使用spark2.4.8以scala-2.11预编译的版本，对应的hadoop版本为2.7。- 修改hadoop-2.7.3/etc/hadoop/hdfs-site.xml，如果目录不存在，给创建上。- 修改hadoop-2.7.3/etc/hadoop/mapred-site.xml。

2023-05-14 11:53:04 2038

原创服务器配置选择以及带宽配置选择

每个页面20k字节*100万个页面/1024=19531M字节=19G字节，19531M/9.6小时=2034M/小时=578K字节/s，如果请求是均匀分布的，需要5M(640K字节)带宽(5Mb=640KB 注意大小写，b是位，B是字节，差了8倍)，但所有请求不可能是均匀分布的，当有高峰时5M带宽一定不够，X2倍就是10M带宽。表示一天中有80%的请求发生在一天的40%的时间内。24小时的40%是9.6小时，有80%的请求发生一天的9.6个小时当中(很适合互联网的应用，白天请求多，晚上请求少)。

2023-05-14 11:22:05 742

转载关于 Apache Doris 和 DorisDB、StarRocks 的关系

2013 年，我们把 Doris 进行了 MPP 框架的升级，并将新系统命名为 Palo ，2017 年我们以百度 Palo 的名字在 GitHub 上进行了开源，2018 年贡献给 Apache 基金会时，由于与国外数据库厂商重名，因此选择用回最初的名字，这就是 Apache Doris 的由来。从 2021 年下半年开始，我们就在努力地筹备 Apache Doris 毕业的事宜，横在我们面前的阻碍，其中最重要的事情之一就是 DorisDB 对 Apache Doris 的品牌侵权问题。

2023-05-14 11:19:13 12458

原创 ES报错FORBIDDEN/12/index read-only / allow delete (api)的解决办法

错误：blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];

2023-05-14 11:01:39 902

原创 ElasticSearch的常用API接口

查看集群状态：http://xxx.xxx.xxx.xxx:19200/_cat/health?v 统计集群信息：http://xxx.xxx.xxx.xxx:19200/_cluster/stats?human&pretty 查看节点状态：http://xxx.xxx.xxx.xxx:19200/_cat/nodes?v 统计节点：http://xxx.xxx.xxx.xxx:19200/_nodes/stats 索引监控：http://xxx.xxx.xxx.xxx:19200/_cat

2023-05-14 10:59:28 474

原创 Spark插入hive表动态分区提示分区数不能大于1000的解决办法

移动要在参数前面加上spark.hadoop，不然不起作用。1.hive分区数不能大于1000。

2023-05-14 10:56:13 1020

原创 Hbase的命令行操作

disable "表名"

2023-05-14 10:53:41 1436

原创 HBase的RowKey设计原则

HBase中的行是按照rowkey的字典顺序排序的，这种设计优化了scan操作，可以将相关的行以及会被一起读取的行存取在临近位置，便于scan。然而糟糕的rowkey设计是热点的源头。热点发生在大量的client直接访问集群的一个或极少数个节点（访问可能是读，写或者其他操作）。大量访问会使热点region所在的单个机器超出自身承受能力，引起性能下降甚至region不可用，这也会影响同一个RegionServer上的其他region，由于主机无法服务其他region的请求。

2023-05-14 10:50:45 1090

原创 Hive窗口函数

ROWS是物理窗口，从行数上控制窗口的尺寸的；RANGE是逻辑窗口，从列值上控制窗口的尺寸。首先，我们要知道什么是窗口子句。

2023-05-14 10:03:58 156

原创 Mysql数据库如何限制密码重试次数，避免密码被暴力破解

【代码】Mysql数据库如何限制密码重试次数，避免密码被暴力破解。

2023-05-14 09:07:06 928

原创设置Mysql密码有效期

按这样设置了密码有效期后，3个月就得改一次密码，是不是很繁琐，有一些账号没有必要频繁的修改密码，那该怎么办呢？这个配置是以天为单位，这里是90天，3个月过期；用户特定策略：禁用密码过期。那就设置密码永不过期吧~

2023-05-14 09:04:34 4364

原创设置Mysql密码复杂度

这一行的意思是数据库重启的时候自动加载密码复杂度插件，不配置的话，一般没问题，但遇到数据库迁移的话，可能会启动数据库失败，为保险起见，还是加上这一行。密码负责度策略，这里设置为1，中复杂度。开启密码复杂度验证插件。

2023-05-14 08:59:32 2923

原创如何安装Mysql的审计插件

最近项目要验收了，数据库的一个验收标准就是要有数据库审计，所以参照资料安装了Mysql的审计插件。

2023-05-14 08:50:54 1817

原创 Mysql安装后如何查询默认密码

Mysql安装后，会自动给root用户生成一个默认密码，一般安装过程中会有提示，但如果安装过程中没注意，那安装后就没法用root登录了。如果是其它用户安装的，需要把/root替换成其它用户的home目录，比如oper用户，默认的home目录就是/home/oper/

2023-05-14 08:41:04 2528

原创 Java中触发主GC条件

由于是否进行主GC由JVM根据系统环境决定,而系统环境在不断的变化当中,所以主GC的运行具有不确定性,无法预计它何时必然出现,但可以确定的是对一个长期运行的应用来说,其主GC是反复进行的。

2023-05-13 18:19:45 1017

原创 Scala如何使用变长参数，动态参数个数

可变参数：定义函数时指定最后一个参数可以重复使用（变长参数），Scala使用“*”来指明。

2023-05-13 18:16:08 168

原创 Oracle12c的启停顺序和命令

4、$lsnrctl reload 重启监听器，此命令可以代替lsnrctl stop,lsnrctl start。2、$lsnrctl start [listener-name] 启动所有的监听器,可以指定名字来启动特定的监听器。3、$lsnrctl stop [listener-name] 关闭所有的监听器，可以指定名字来关闭特定的监听器。5、lsnrctl hep 可以显示所有可用的监听器命令。1、$lsnrctl status：检查当前监听器的状态。

2023-05-13 18:14:00 1149

原创安装使用Oracle中出现的一些问题

2.关闭数据库重启时出现：Specified value of MEMORY_TARGET is too small, needs to be at least 1536M。修改pfile中的MEMORY_TARGET为1536M。停止数据库，从pfile创建spfile。使用spfile启动：startup。用pfile启动，成功。

2023-05-13 18:10:56 470

原创 Oracle 12c安装

安装必须的安装包：结果如下：安装不成功的再使用yum install xxx来安装，安装后如下：修改操作系统参数：使用如下命令生效：修改文件句柄数配置vim /etc/security/limits.conf加入如下值配置swap分区，由于我的默认有3G，所以暂不做处理。创建用户组和密码：设置许可， /etc/selinux/config关闭防火墙创建目录，授权在root用户下执行：在Oracle用户下执行：执行安装程序：等待一会儿，弹出安装界

2023-05-13 18:08:23 1992

原创常用的intellij的快捷键

选中文本，按Ctrl+Shift+F7 ，高亮显示所有该文本，按Esc高亮消失。ctrl+shift+enter(智能完善代码如 if())ctrl+shift+backspace(最后编辑的地方)ctrl+shift+up/down(移动行、合并选中行)ctrl+shift+space(new 后面自动提示)ctrl+alt+t(自动生成try,catch)ctrl+shift+i(快速查看实现)alt+shift+c(最近变更历史)ctrl+shift+/ (注释)ctrl+shift+v(粘贴)

2023-05-13 17:40:55 808

原创 Python爬虫-使用Selenium模拟百度登录

使用selenium模拟百度登录

2023-05-13 17:30:10 3715 4

地址转换百度地图经纬度源代码

2023-07-02

Datax的StarRocks数据库写插件

2023最新版本的Datax的StarRocks数据库写插件

2023-06-19

京东抢茅台代码京东抢茅台代码

京东抢茅台代码，测试可用，供学习使用

2023-05-14

HIVE函数参考手册.docx

包含hive函数的清单，参数，及使用方法

2023-05-14

通过案例实战掌握Spark编程模型内幕.pptx

通过案例实战掌握Spark编程模型内幕

2023-05-14

Java面试宝典2023版.doc

2023-05-14

kettle连接ClickHouse驱动包.rar

2023-05-14

selenium的Chrome浏览器驱动

selenium的Chrome浏览器驱动，放到python的script目录下在命令行下执行chromedriver，就可以开启

2023-05-14

天猫抢茅台插件天猫抢茅台插件

天猫抢茅台插件，亲测可用，供学习使用

2023-05-14

京东应用架构设计.rar

2023-05-14

spark原理示意图.rar

1-Overview.pdf 2-JobLogicalPlan.pdf 3-JobPhysicalPlan.pdf 4-shuffleDetails.pdf 5-Architecture.pdf 6-CacheAndCheckpoint.pdf 7-Broadcast.pdf

2023-05-14

HBase用户手册-v2.2.docx

2 总体介绍 7 2.1 整体介绍 7 2.2 hbase的应用 7 2.3 HBase的体系结构简介 8 2.4 HBase的访问方式 9 2.5 适用场景 9 3 HBase使用流程 10 3.1 流程图 10 4 使用约定 12 4.1 权限管理 12 4.2 命名规范 12 5 模型设计 13 5.1 相关概念 13 5.2 模型结构 13 5.3 设计原则 15 6 表设计 17 6.1 表属性说明 17 6.2 表创建实例 17 7 bulk loading的使用 19 7.1 bulkload介绍 19 7.2 具体使用方法 19 7.2.1 往hdfs中put文件： 19 7.2.2 用ImportTsv方法生成Hfile 20 7.2.3 利用Hfile进行加载 21 7.2.4 put方式直接加载 22 8 HBase-client 24 8.1 log4j 24 8.2 configuration 25 8.3 Cluster Connections 25 8.4 Connection Pooling 26 8.5 create table 26 8.6 sing

2023-05-14

Hive使用手册Hive使用手册

目录 1 Hive 概念与连接使用: 2 2 Hive支持的数据类型： 2 2.1原子数据类型： 2 2.2复杂数据类型： 2 2.3 Hive类型转换： 3 3 Hive创建/删除数据库 3 3.1创建数据库: 3 3.2 删除数据库: 3 4 Hive 表相关语句 3 4.1 Hive 建表： 3 4.1.1使用LIKE关键字创建一个与已有表模式相同的新表： 4 4.2 Hive 修改表 4 4.2.1 Hive 新增一个字段： 4 4.2.2 Hive 修改字段名/字段类型/字段位置/字段注释： 4 4.2.3 Hive 重命名表名: 4 4.3Hive 删除表： 4 5 Hive 分区 4 5.1 Hive 添加分区 4 5.2 Hive 删除分区 5 6 SHOW语句 5 7 DESCRIBE语句 5 8 加载数据 5 9表连接 6 10 子查询 6 11 UNION ALL 6 12 Hive使用注意点: 6 13 Hive优化 9

2023-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

地址转换百度地图经纬度源代码

Datax的StarRocks数据库写插件

京东抢茅台代码京东抢茅台代码

HIVE函数参考手册.docx

通过案例实战掌握Spark编程模型内幕.pptx

Java面试宝典2023版.doc

kettle连接ClickHouse驱动包.rar

selenium的Chrome浏览器驱动

天猫抢茅台插件天猫抢茅台插件

京东应用架构设计.rar

spark原理示意图.rar

HBase用户手册-v2.2.docx

Hive使用手册Hive使用手册

Hive窗口函数，定义、demo

clickhouse的jdbc驱动

hql开发模板.sql

国发改指标体系-中国营商环境评价指标体系新旧比较.pdf

PPT模板，三分钟学经营-动态模板20

Hadoop2.9.2+Spark2.4.8安装手册.txt

hudi-spark3.1.2-bundle-2.12-0.10.1.jar

180款国外创意精美PPT图表-4

罗兰贝格PPT模板-436页

ChatGPT研究框架2023

spark原理示意图，执行计划，shuffle，架构，检查点，缓存，广播

基于Saprk的机器学习.pdf

空空如也