敲代码的乔帮主-CSDN博客

原创阿里云DataWorks数据集成（DataX）架构&实践分享

阿里云DataWorks数据集成（DataX）架构&实践分享分享嘉宾：罗海伟阿里云编辑整理：约理中国科学院大学目录阿里云DataWorks数据集成（DataX）架构&实践分享▌为什么需要数据集成数据集成的应用场景数据集成的角色和地位▌阿里云数据集成大事记▌阿里云数据集成产品定位和业务支撑情况阿里云数据集成产品定位阿里云数据集成业务支撑情况▌阿里云数据集成DataX设计核心思路离线数据同步原理实时数据同步原理▌阿里云数据集成Dat..

2021-09-29 16:18:30 7026

原创 2.3.10 hadoop体系之离线计算-Hive数据仓库-MaxCompute SQL调优

1.写在前面今天跟大家分享的内容是maxcompute的优化内容，希望能够起到抛砖引玉的作用。我将从三个方面开展这次的主题分享，第一个部分是max和hive的对比；第二部分是调优方法论，主要是想总结一下我们从代码提交到执行结束，都有哪些位置可能会出现问题，一般情况下又是怎么解决的；最后是结合具体案例，对长尾问题的一些思考。2. MaxCompute对比Hive首先，先对其简单做个介绍，MaxCompute主要是应用在批量结构化数据的存储和计算，主要是数据仓库的...

2021-07-13 17:51:46 1150 2

原创【论文阅读ACL2020】Leveraging Graph to Improve Abstractive Multi-Document Summarization

题目：Leveraging Graph to Improve Abstractive Multi-Document Summarization （基于图表示的生成式多文档摘要方法）会议：ACL2020论文地址：https://arxiv.org/abs/2005.10043其他：出自百度NLP小组工作这个是百度 NLP 小组在 ACL2020 上面的一篇工作，当前多文档摘要应用场景和需求也越来越多，接下来我将就论文主要内容做介绍。目录1.多文档摘要2...

2020-06-16 23:45:34 2718 6

原创大数据学习之路

这个系列是大数据相关知识，大致包含五个方面，第一个阶段是linux和高并发基本知识；第二个是hadoop体系的离线计算；第三个阶段是spark体系的分布式计算；第四个阶段是机器学习和数据挖掘相关部分；最后第五阶段是大数据项目实战。

2020-02-22 17:42:14 2406 3

原创一文搞清楚梯度下降

何为梯度？为什么要下降？

2025-03-09 19:53:33 764

原创基于Q-Learning解决迷宫问题

创建一个2x2的小迷宫，迷宫中有目标位置和障碍物

2025-03-05 17:17:08 241

原创 matplotlib显示中文问题

运行以下代码，它会将你所有的字体显示出来，注意打印出来的都是英文，你得自己分辨哪些是中文字体。不要着急嘛，我们来把问题原因弄清楚，原因就是matplotlib库中压根就没有中文字体啊。或许你添加了这两行代码还是没有效果，在你图表中的中文依旧是一个个小框框。在试过几种方法之后我发现一种及其简单的，分享给大家。从中挑选自己需要的字体，

2024-12-20 15:51:39 344

原创二分类-多机器学习模型算法实现对比

使用逻辑回归/决策树/随机森林算法。

2024-10-13 09:59:22 327

原创 Circos 可视化：多维数据的环形展示

Circos 是一种环状图表，最初用于基因组学中的基因关系可视化，后来逐渐发展为广泛应用于各类多维数据展示的工具，它以圆形扇区为核心，不同的类别或维度可以分配到各个扇区中，每个扇区内可以绘制多个图形轨道，从而能够在同一图表中显示多种图形类型。数据可视化是数据分析中的重要环节，尤其是在面对多维数据时，如何有效地展示各类特征及其之间的关系是一项挑战，接下来将介绍一种独特且高效的可视化工具——Circos，它以环形布局为基础，能够清晰、直观地展示不同类别、维度的复杂数据结构。Circos 可视化的基本原理。

2024-09-27 15:55:25 1066

原创多个树模型特征贡献度与可视化

例如，“DMC”和“temp”在大多数模型中都被认为是较为重要的特征，而像“rain”这样的特征在各个模型中的排名较低。在机器学习中，特征的重要性是了解模型如何做出预测的关键指标之一，在树模型中，特征重要性通常通过特征的分裂节点来衡量，通过观察特征在模型中的贡献，可以对数据集中的重要特征有更深入的理解，之前的文章中，分别介绍了如何通过RF、 XGBoost 和 LightGBM 来提取特征贡献度，在本篇文章中，将加入 CatBoost 模型，并进行可视化综合比较这些树模型中的特征重要性。

2024-09-27 14:29:11 989

原创多机器学习模型学习

至此，训练集的特征和目标值，以及测试集的特征和目标值均已经可用。

2024-09-23 19:49:54 635

原创 XGBoost算法-代码实现和网格调参

这些超参数的合理设置对于模型的性能至关重要。通常，需要通过交叉验证等方法来调整这些参数，以找到最佳的模型配置。在实际应用中，这些信息帮助我们理解模型在不同配置下的表现，并选择最佳的模型参数进行最终的模型部署和预测。利用GridSearchCV算法，找出最合适的num_boost_round和学习率eta超参数。在XGBoost中，这些超参数控制着模型的训练过程和行为。进行的模型超参数优化和验证的细节。这段执行结果提供了通过。

2024-09-10 16:03:59 1423

原创 XGBoost算法-确定树的结构

我们在求解上面的w和obj的过程中，都是假定我们的树结构是确定的，因为当我们改变树中划分条件的时候，每个叶子节点对应的样本有可能是不一样的，我们的G和H也是不一样的，得到的最优w和最优obj肯定也是不一样的。到底哪一棵回归树的划分方式是最优的呢？很明显，obj最小的回归树肯定是最合理的，所以我们需要找出导致obj最小的那颗回归树。

2024-09-08 20:45:57 1115

原创 XGBoost算法-目标函数

xgboost是一个非常强大，非常受欢迎的机器学习模型，其中最大的特色就是boosting（改进、推进），怎么改进呢？就是xgboost这个算法，它会先建立一颗简单的决策树，然后看这个决策树的预测结果，有哪些地方算错了，针对这些错误，来进行一些改进，又拿到一颗决策树，然后看第二颗决策树预测结果又哪些地方错了，然后再根据这些错误再做一些改进，通过这一次次的快速的改进，将错误最小化，最后xg可达到一个非常精确的结果。

2024-09-08 04:08:59 1438

原创正则化L1和L2

1、 L1正则化通过向损失函数添加权重系数的绝对值之和来对模型参数进行惩罚。2、 L1正则化倾向于产生稀疏解，即它倾向于将模型中不重要的参数置为0，从而实现特征选择。这意味着在模型的最终解中，许多参数将是零，这有助于创建一个简洁的模型并减少模型的复杂性。3、 L1正则化不具有解析解，通常需要使用诸如坐标下降法或子梯度方法等优化算法求解。

2024-06-04 17:15:39 445

原创箱型图方法（IQR）识别数据异常值

当我们处理数据时，尤其是涉及到金融数据如商品的历史成交价格时，消除异常值是非常关键的。这些异常值可能是由于误差、欺诈或其他非典型事件引起的。识别并处理这些奇异价格点能够提高数据分析的准确性。在本文中，我们将探讨箱型图方法（IQR，Interquartile Range）识别异常值的原理，并通过一段Python代码说明其应用。

2024-04-17 19:31:08 4935

原创 4.1.28 Flink-流处理框架-Flink使用Lambda表达式引发了泛型擦除问题

1.写在前面最近在重温Flink相关知识点的时候，发现了一个以前没有注意的点，当我们利用Flink的lambda表达式的时候，返回值要类型要给定，不给定的话，就会报错。如下：could not be determined automatically, due to type erasure. You can give type information hints by using the returns(...) method on the result of the tran...

2022-04-07 21:46:59 3694 3

原创 2.3.12 hadoop体系之离线计算-Hive数据仓库-HIVE的严格模式

目录1.写在前面2.参数设置3.分别解释1.写在前面最近在写一个sql，碰见一个报错，内容如下：Error while compiling statement: FAILED: SemanticException Cartesian products are disabled for safety reasons. If you know what you are doing, please sethive.strict.checks.cartesian.prod...

2022-03-21 18:51:46 722

原创 4.3.4 Flink-流处理框架-Flink CDC数据实时数据同步-Flink CDC实操-DataStream方式-自定义反序列化器实现

目录1.写在前面2.Maven依赖3.代码实现3.1 自定义反序列化器 CustomerDeserialization3.2 主函数 FlinkCDCWithCustomerDeserialization4.集群测试4.1 环境准备4.2 查看任务结果1.写在前面Flink CDC有两种实现方式，一种是DataStream，另一种是FlinkSQL方式。DataStream方式：优点是可以应用于多库多表，缺点是需要自定义反序列化器（灵活） FlinkSQL方式.

2022-03-16 19:26:14 3928

原创 4.3.5 Flink-流处理框架-Flink CDC数据实时数据同步-Flink CDC实操-FlinkSQL方式

目录1.写在前面2.Maven依赖3.代码实现-普通实现4.集群测试4.1 环境准备4.2 查看任务结果1.写在前面Flink CDC有两种实现方式，一种是DataStream，另一种是FlinkSQL方式。DataStream方式：优点是可以应用于多库多表，缺点是需要自定义反序列化器（灵活） FlinkSQL方式：优点是不需要自定义反序列化器，缺点是只能应用于单表查询2.Maven依赖<dependencies> &...

2022-03-16 19:17:04 3462 1

原创 4.3.3 Flink-流处理框架-Flink CDC数据实时数据同步-Flink CDC实操-DataStream方式

目录1.写在前面2.相关依赖3.代码实现4.运行效果1.写在前面 Flink CDC有两种实现方式，一种是DataStream方式，一种是FlinkSQL方式。2.相关依赖<dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-ja...

2022-03-16 18:59:43 3747

原创 4.3.2 Flink-流处理框架-Flink CDC数据实时数据同步-何为Flink CDC？

目录1.写在前面2.Flink CDC出现的动机3.基于传统的CDC的ETL分析4.基于Flink CDC的ETL分析5.支持的版本和连接器1.写在前面CDC是一种可以捕获数据库变更的技术，用于数据同步、数据分发和数据采集等多个现实场景。像我们比较熟知的DataX、Canal、Sqoop等多个框架就是常见的CDC开源工具。Flink CDC一开始只是阿里-云邪个人的一个兴趣孵化项目，于2020年7月提交了第一个commit，2020 年...

2022-03-16 18:49:38 3309 1

原创 4.3.1 Flink-流处理框架-Flink CDC数据实时数据同步-何为CDC？

目录1.写在前面2.实现机制3.开源CDC方案对比1.写在前面CDC 的全称是 Change Data Capture（(变更数据获取），在广义的概念上，只要是能捕获数据变更的技术，我们都可以称之为 CDC 。目前通常描述的 CDC 技术主要面向数据库的变更，是一种用于捕获数据库中数据变更的技术。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订...

2022-03-16 18:14:28 3476 1

转载 2.1.9 hadoop体系之离线计算-hdfs分布式文件系统-Hadoop数据压缩

目录1.写在前面2.MR支持的压缩编码3.压缩配置参数总结1.写在前面最近项目中用到了LZO压缩方式，这种压缩方式在hadoop文件中压缩效率非常高，想着hadoop本身也自带了包括default/gzip等压缩方式，这篇文章做一下对比学习，看一下每个压缩方式的使用场景，便于后面选型。压缩本身是为了减轻磁盘IO压力，节省存储资源，但是运用不当的话可能会适得其反，降低性能。那什么时候才应该使用压缩文件这个优化技巧呢？一般我们将job分为运算密集型job和...

2022-01-10 19:38:10 235

原创 1.2.6 linux和高并发-linux基本命令-linux环境变量配置说明

Linux 的环境变量可在多个文件中配置，如 /etc/profile，/etc/profile.d/*.sh，~/.bashrc， ~/.bash_profile 等，那么配置在不同的位置，都有哪些区别呢？我之前也没有太在意过这个问题，一般我喜欢配置在/etc/profile下面，也没有出过什么问题。最近在看一些文章的时候，发现大家配置环境的位置各式各样，搜集了一些相关信息，总结一下区别。1.交互式shell和非交互式shell首先我们要弄明白两个概念，bash的运...

2022-01-04 19:59:53 714

原创 2.3.11 hadoop体系之离线计算-Hive数据仓库-MaxCompute SQL多维聚合求PV和UV

1.写在前面最近遇到一个问题，需要对多个维度的多个组合聚合查询。比如我们的日志流量中有用户id，商铺id，用户和商铺又可以属于不同的类别，当需要统计，不同类别人群在不同类别商铺中的消费情况的时候，就需要用到这个知识。2.数据构造我们模拟构造一个cube_demo表，表中有三个字段，id，国家，性别，我们想要统计不同国家，不同性别的PV和UV。CREATE TABLE IF NOT EXISTS cube_demo LIFECYCLE 3 ASSELECT ...

2021-07-29 09:43:03 512

原创 2.3.9 hadoop体系之离线计算-Hive数据仓库-hql实现wordcount操作

1.写在前面类比hql理解，hive出现的目的就是因为MapReduce编程太不方便了，想写一个wordcount，需要写一个Mapper的子类+Reducer的子类，最后还要写一个主类用来描述job、提交job（mapreduce实现WordCount）。hql的出现大大简化了这一流程，直接分割文本，切出每个单词，利用行转列将每个单词作为一行统计次数即可。2.sql实现先直接上SQL语句，可以看出SQL实现确实比MapReduce实现要清爽得多。大概实现流程分为三步：分割本...

2021-06-30 20:45:09 343

原创 4.2.11 Flink-流处理框架-Table API 与 SQL-函数（Functions）之用户自定义函数 UDF

1.写在前面用户定义函数（User-defined Functions，UDF）是一个重要的特性，因为它们显著地扩展了查询（Query）的表达能力。一些系统内置函数无法解决的需求，我们可以用 UDF 来自定义实现。在大多数情况下，用户定义的函数必须先注册，然后才能在查询中使用。不需要专门为 Scala 的 Table API 注册函数。函数通过调用 registerFunction（）方法在 TableEnvironment 中注册。当用户定义的函数被注册时，...

2021-03-15 23:27:20 444

原创 4.2.10 Flink-流处理框架-Table API 与 SQL-函数（Functions）之内置函数

Flink Table API 和 SQL 为用户提供了一组用于数据转换的内置函数。SQL 中支持的很多函数，Table API 和 SQL 都已经做了实现，其它还在快速开发扩展中。以下是一些典型函数的举例，全部的内置函数，可以参考官网介绍。...

2021-03-15 14:25:36 328 1

原创 4.2.9 Flink-流处理框架-Table API 与 SQL-流处理中的特殊概念之窗口（Windows）

目录1.写在前面2.窗口（Windows）2.1分组窗口（Group Windows）2.1.1滚动窗口2.1.2滑动窗口2.1.3 会话窗口2.2Over Windows2.2.1无界 Over Windows2.2.2有界的 over window2.3SQL 中窗口的定义2.3.1Group Windows2.3.2Over Windows3.代码总结4.代码练习（以分组滚动窗口为例）1.写在前面时间语...

2021-03-15 00:43:56 638

原创 4.2.8 Flink-流处理框架-Table API 与 SQL-流处理中的特殊概念之时间特性

目录1.写在前面2.时间特性2.1 定义处理时间（Processing Time）2.1.1DataStream 转化成 Table 时指定2.1.2定义 Table Schema 时指定2.1.3创建表的 DDL 中指定2.2定义事件时间（Event Time）2.2.1DataStream 转化成 Table 时指定2.2.2定义 Table Schema 时指定2.2.3在创建表的 DDL 中定义1.写在前面基于时间的操作（...

2021-03-14 12:43:28 319

原创 4.2.7 Flink-流处理框架-Table API 与 SQL-流处理中的特殊概念之动态表+持续查询

目录1.写在前面2.流处理和关系代数（表，及 SQL）的区别3.动态表（Dynamic Tables）4.流式持续查询的过程4.1将流转换成动态表（Dynamic Tables）4.2 持续查询（Continuous Query）4.3将动态表转换成流1.写在前面 Table API 和 SQL，本质上还是基于关系型表的操作方式；而关系型表、关系代数，以及 SQL 本身，一般是有界的，更适合批处理的场景。这就导致在进行流处理的过程中，理解会稍微复杂一些...

2021-03-14 10:54:20 315

原创 4.2.6 Flink-流处理框架-Table API 与 SQL-查看表的执行计划

Table API 提供了一种机制来解释（Explain）计算表的逻辑和优化查询计划。这是通过 TableEnvironment.explain（table）方法或 TableEnvironment.explain（）方法完成的。 explain 方法会返回一个字符串，描述三个计划：我们可以在代码中查看执行计划：String explaination = tableEnv.explain(resultTable);System.out.pri...

2021-03-12 19:49:12 465 1

原创 4.2.5 Flink-流处理框架-Table API 与 SQL-表的输出

1.写在前面表的输出，是通过将数据写入 TableSink 来实现的。TableSink 是一个通用接口，可以支持不同的文件格式、存储数据库和消息队列。具体实现，输出表最直接的方法，就是通过 Table.insertInto() 方法将一个 Table 写入注册过的 TableSink 中。2.输出到文件注册输出表 insertInto（只实现了追加模式 append mode）不支持，数据聚合有更新操作的数据输出到文件。flin...

2021-03-12 18:45:50 884

原创 4.2.3 Flink-流处理框架-Table API 与 SQL-流转表+表转流+创建临时视图（Temporary View）

目录1.写在前面2.代码表达3.数据类型与Table schema 的对应4.创建临时视图（Temporary View）1.写在前面 Flink 允许我们把 Table 和 DataStream 做转换：我们可以基于一个 DataStream，先流式地读取数据源，然后 map 成 POJO，再把它转成 Table。Table 的列字段（column fields），就是 POJO 里的字段，这样就不用再麻烦地定义 schema 了。2.代码表达 ...

2021-03-12 10:36:55 4515 1

原创 4.2.4 Flink-流处理框架-Table API 与 SQL-表的查询

目录1.写在前面2.Table API 的调用3.SQL 查询4.代码总结1.写在前面利用外部系统的连接器 connector，我们可以读写数据，并在环境的 Catalog 中注册表。接下来就可以对表做查询转换了。Flink 给我们提供了两种查询方式：Table API 和 SQL。2.Table API 的调用 Table API 是集成在 Scala 和 Java 语言内的查询 API。与 SQL 不同，Table API 的查询不会用字...

2021-03-12 09:15:14 400

原创 4.2.2 Flink-流处理框架-Table API 与 SQL-基本程序结构（创建表环境+在 Catalog 中注册表）

目录1.基本程序结构2.创建表环境2.1配置老版本 planner2.2配置 blink planner3.在 Catalog 中注册表3.1 表的概念3.2连接到文件系统（Csv 格式）3.3连接到 Kafka4.代码示例1.基本程序结构 Table API 和 SQL 的程序结构，与流式处理的程序结构类似；也可以近似地认为有这么几步：首先创建执行环境，然后定义 source、transform 和 sink。具体操作流程如下：St...

2021-03-11 21:16:03 863 1

原创 4.2.1 Flink-流处理框架-Table API 与 SQL-基本概念和简单实例程序

目录1.Table API 与 SQL的基本概念2.Table API 与 SQL的实例程序2.1 需要引入pom的依赖2.2 实例程序1.Table API 与 SQL的基本概念 Table API 是流处理和批处理通用的关系型 API，Table API 可以基于流输入或者批输入来运行而不需要进行任何修改。Table API 是 SQL 语言的超集并专门为 Apache Flink 设计的，Table API 是 Scala 和 Java 语言集成式的 API。与...

2021-03-11 19:39:18 398

原创 4.1.27 Flink-流处理框架-检查点恢复+flink检查点算法+保存点

目录1.从检查点恢复状态2.Flink的检查点的实现算法2.1 检查点分界线2.2Flink的检查点的实现算法举例3.保存点（Savepoints）1.从检查点恢复状态在执行流应用程序期间，Flink 会定期保存状态的一致检查点，如果发生故障， Flink 将会使用最近的检查点来一致恢复应用程序的状态，并重新启动处理流程。遇到故障之后，第一步就是重启应用第二步是从 checkpoint 中读取状态，将状态重置。从检...

2021-03-11 17:21:55 455 2

原创 4.1.25 Flink-流处理框架-Flink中的容错机制之Flink+Kafka 端到端状态一致性的保证

目录1.写在前面2.保证端到端状态一致性3.Exactly-once 两阶段提交过程Exactly-once 两阶段提交步骤总结：1.写在前面 kafka是消息队列，跟flink天生是一对，他们的组合方式就是处理流式数据最佳的一个方案。假设我们的方案架构师flink从kafka中读取数据，经过flink算子处理之后，sink输出到kafka中。flink的两端都是kafka消息队列的数据管道，这样的一个数据处理系统我们怎么保证数据的一致性呢？2....

2021-03-11 14:37:54 342 1

catVSdog_data深度学习猫狗分类任务数据集

这个数据集中一共有1W张图片，没有重复的5000个dog+5000个cat图像（已经经过处理）其中90%的数据当做训练集（9000张，4500张cat ，4500张dog），10%的数据当做测试集，均有对应文件夹，可以直接进行训练使用数据命名 cat+数字，dog+数字 VGG16训练结果： train Loss:0.8838, Correct:93.0000 val Loss:0.2155, Correct:96.0000 Training time is:23m 58s

2020-04-15

LaTex参考书籍（刘海洋入门+short快速）

开始编写我的第一个LaTeX文件编辑tex文件 %文件名a.tex \documentclass{article} \usepackage[space]{ctex} \begin{document} hello world 你好世界 \end{document} 编译xelatex a.tex即可在当前目录生成同名的a.pdf文件和一些中间文件。 pdf文档如下:

2019-03-05