@我不是大鹏-CSDN博客

原创 39、AI大模型技术之机器学习（3、感知机、其他监督学习、无监督学习）

朴素贝叶斯（naive Bayes）法是一种基于概率的机器学习算法。它基于贝叶斯定理，并假设特征之间相互独立（这就是“朴素”的来源）。朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用方法，在许多场景下表现得非常好，如文本分类（垃圾邮件检测）、情感分析等。决策树（Decision Tree）是一种基于树形结构的算法，根据一系列条件判断逐步划分数据，缩小范围，最终得出预测结果。决策树由4部分组成：根节点：树的节点，包含所有数据。内部节点：表示特征上的判断条件。

2025-12-25 07:00:00 640

原创 38、大模型技术之机器学习（2、knn算法、线性回归、逻辑回归）

线性回归（Linear Regression）是一种用于建模两个或多个变量之间线性关系的统计方法。它通过拟合一条直线（或超平面）来描述自变量（输入特征）与因变量（输出目标）之间的关联，并可用于预测或分析变量间的影响关系。2）多元线性回归包含多个自变量：y=β0+β1x1+β2x2+…+βnxn。信用评分：预测客户是否会违约（违约/不违约）。欺诈检测：预测某笔交易是否是欺诈行为。垃圾邮件检测：预测一封邮件是否是垃圾邮件（垃圾邮件/非垃圾邮件）。

2025-12-24 08:00:00 750

原创 37、大模型技术之机器学习（1、概述以及基本理论）

特征工程（Feature Engineering）是机器学习过程中非常重要的一步，指的是通过对原始数据的处理、转换和构造，生成新的特征或选择有效的特征，从而提高模型的性能。简单来说，特征工程是将原始数据转换为可以更好地表示问题的特征形式，帮助模型更好地理解和学习数据中的规律。优秀的特征工程可以显著提高模型的表现；反之，忽视特征工程可能导致模型性能欠佳。实际上，特征工程是一个迭代过程。特征工程取决于具体情境。它需要大量的数据分析和领域知识。

2025-12-22 08:00:00 771

原创 36、大模型技术之数学基础（导数、线性代数、概率论）

导数（derivative）是微积分中的一个概念。函数在某一点的导数是指这个函数在这一点附近的变化率（即函数在这一点的切线斜率）。导数的本质是通过极限的概念对函数进行局部的线性逼近。

2025-12-19 08:00:00 700

原创 35、大模型技术之numpy与pandas1.0（第 3 章Pandas详情实战下）

透视表（pivot table）是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它可以根据多个行分组键和多个列分组键对数据进行聚合，并根据行和列上的分组键将数据分配到各个矩形区域中。1）什么是MatplotlibMatplotlib是一个Python绘图库，广泛用于创建各种类型的静态、动态和交互式图表。它是数据科学、机器学习、工程和科学计算领域中常用的绘图工具之一。

2025-12-17 08:00:00 812

原创 34、大模型技术之numpy与pandas1.0（第 3 章Pandas详情实战上）

Pandas 是一个开源的数据分析和数据处理库，它是基于 Python 编程语言的。Pandas 提供了易于使用的数据结构和数据分析工具，特别适用于处理结构化数据，如表格型数据（类似于Excel表格）。Pandas 是数据科学和分析领域中常用的工具之一，它使得用户能够轻松地从各种数据源中导入数据，并对数据进行高效的操作和分析。用得最多的pandas对象是Series，一个一维的标签化数组对象，另一个是DataFrame，它是一个面向列的二维表结构。

2025-12-16 08:00:00 1490

原创 33、大模型技术之numpy与pandas1.0（第 2 章Numpy）

numpy是Python中科学计算的基础包。它是一个Python库，提供多维数组对象、各种派生对象（例如掩码数组和矩阵）以及用于对数组进行快速操作的各种方法，包括数学、逻辑、形状操作、排序、选择、I/O 、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。numpy的部分功能如下：1ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。2用于对整组数据进行快速运算的标准数学函数（无需编写循环）。3用于读写磁盘数据的工具以及用于操作内存映射文件的工具。

2025-12-11 08:00:00 787

原创 32、大模型技术之numpy与pandas1.0（第一章环境搭建Anaconda及Jupyter）

简单来说，Anaconda = Python + 包和环境管理器（Conda）+ 常用库 + 集成工具。它适合那些需要快速搭建数据科学或机器学习开发环境的用户。Anaconda和Python相当于是汽车和发动机的关系，安装Anaconda后，就像买了一台车，无需自己去安装发动机和其他零配件，而Python作为发动机提供Anaconda工作所需的内核。

2025-12-09 08:00:00 713

原创 31、大模型技术之MySQL(实战sql3)

从MySQL 8.0开始，mysql系统表和数据字典表使用InnoDB存储引擎，存储在MySQL数据目录下的mysql.ibd表空间文件中。在MySQL 5.7之前，这些系统表使用MyISAM存储引擎，存储在MySQL数据库文件目录下各自的表空间文件中。

2025-12-07 21:15:44 1005

原创 30、大模型技术之MySQL(实战sql2)

关联查询：两个或更多个表一起查询。前提条件：这些一起查询的表之间是有关系的（一对一、一对多），它们之间一定是有关联字段，这个关联字段可能建立了外键，也可能没有建立外键。比如：员工表和部门表，这两个表依靠“部门编号”进行关联。

2025-12-05 08:00:00 596

原创 29、大模型技术之MySQL(实战sql)

函数：代表一个独立的可复用的功能。MySQL中的函数必须有返回值，参数可以有可以没有。MySQL中函数分为：（1）系统预定义函数：MySQL数据库管理软件提供的函数，直接用就可以，任何数据库都可以用公共的函数。单行函数：表示会对表中的每一行记录分别计算，有n行得到还是n行结果。如数学函数、字符串函数、日期时间函数、条件判断函数、窗口函数等。分组函数：或者又称为聚合函数，多行函数，表示会对表中的多行记录一起做一个“运算”，得到一个结果。

2025-12-04 08:00:00 539

原创 28、大模型技术之MySQL(mysql介绍安装及客户端的详细使用)

数据库（DB：Database）：存储数据的地方。

2025-12-03 08:00:00 966

原创 27、大模型技术之Linux

本章节将介绍Linux相关知识，为后续内容奠定基础。

2025-12-02 08:00:00 2292

原创 26、大模型技术之VMware&Ubuntu&Xshell安装

简称“VMware”，VMware Workstation 是一款由 VMware 公司开发的虚拟化软件，它允许用户在一台物理机器上创建和运行多个完整的虚拟机。每台虚拟机可以运行不同的操作系统，并且与主机系统和其他虚拟机之间保持良好的隔离性。

2025-11-29 09:00:00 916

原创 25、大模型技术之数据结构及算法（第 4 章常用算法）

分治算法的基本思想为：将原问题递归的分解为若干个（通常是两个以上）规模较小、相互独立且性质相同的子问题，直到子问题足够简单，简单到可以直接求解。然后再返回结果，逐个解决上层问题。实际上，前文提到的归并排序算法和快速排序算法都是分治思想的典型应用。能使用分治算法解决的问题通常需要具备以下特点：1可分解：问题可以被划分为多个规模较小的子问题。这些子问题通常具有相同的性质，并且可以独立地解决。2存在基本情况：问题分解的小到一定程度后，就变得非常简单，简单到可以直接求解。

2025-11-28 08:00:00 955

原创 24、大模型技术之数据结构及算法（常用数据结构）

数组是一种线性数据结构，将相同类型的元素顺序地存储在连续的内存空间中，每个元素都有一个索引。由于数组元素在内存中是连续存储的，所以只要知道数组的起始位置，以及数组元素的类型（单个元素的长度），就可以根据索引计算出任意元素的位置。数组在创建时需要指定长度，并且数组一旦创建，长度就无法改变，如果需要扩容，只能创建一个更大的数组，再将原数据拷贝到新数组。并且由于数组的连续性，插入和删除数据可能需要移动其他元素。

2025-11-27 08:00:00 589

原创 23、大模型技术之数据结构及算法（数据结构及算法基础）

数据结构是为了高效访问数据而设计出的一种数据的组织和存储方式。更具体的说，一个数据结构包含一个数据元素的集合、数据元素之间的关系以及访问和操作数据的方法。像前面我们接触到的list、set、dict、tuple其实已经是一种python封装的高级数据结构了，里面封装了对基本数据类型数据的存储以及组织方式。算法是一个用于解决特定问题的有限指令序列（计算机可以执行的操作）。通俗的理解就是可以解决特定问题的方法。算法的五大特性：1输入：算法具有0个或多个输入。2输出：算法至少有1个输出。

2025-11-26 08:00:00 1235

原创 22、大模型技术之Python连接外部数据源（连接MySQL代码,redis,hive实战）

关注公众号"开源创富指南"，解锁更多技术。

2025-11-24 10:57:06 29

原创 21、大模型技术之Python连接外部数据源（Hive安装）

1）Hive简介Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。那为什么会有Hive呢？它是为了解决什么问题而诞生的呢？下面通过一个案例，来快速了解一下Hive。例如：需求，统计单词出现个数。1如果通过Hive SQL实现，一行就搞定了，简单方便，容易理解。2）Hive本质Hive是一个Hadoop客户端，用于将HQL（Hive SQL）转化成MapReduce程序。

2025-11-24 08:00:00 27

原创 20、大模型技术之Python连接外部数据源（JDK准备）

2）用XShell工具将JDK导入到hadoop102的/opt/software文件夹下面。关注公众号"开源创富指南"，解锁更多技术。（1）新建/etc/profile.d/my_env.sh文件。3）在Linux系统下的opt目录中查看软件包是否导入成功。4）解压JDK到/opt/module目录下。添加如下内容，然后保存（:wq）退出。至此jdk，java的环境安装完成。6）测试JDK是否安装成功。5）配置JDK环境变量。（2）让环境变量生效。

2025-11-23 09:15:00 24

原创 19、大模型技术之Python连接外部数据源（redis安装）

多路io复用，指的是同一个进程用一个线程处理多个IO数据流。原理：多路Io复用是利用select、poll、epoll（不同的监控策略）可以同时监察多个流的IO事件的能力，在空闲的时候会把当前线程阻塞，当有一个或多个流由IO事件发生时，就从阻塞态中唤醒，处理就绪的流。优势：当处理的消耗对比IO几乎可以忽略不计时，可以处理大量的并发IO，而不用消耗太多CPU/内存。串行 vs 多线程+锁（memcached） vs 单线程+多路IO复用(Redis)

2025-11-22 09:00:00 19

原创 18、大模型技术之Python连接外部数据源（mysql安装）

1）将资料里mysql文件夹及里面所有内容上传到/opt/software/mysql目录下。

2025-11-21 15:00:40 24

原创 17、大模型技术之Python(第 17 章综合案例：客户信息管理系统)

1）添加id输入纯数字则正常添加。否则提示id必须为纯数字，并再次输入。第三次输入时有额外提醒。三次输入失败后终止添加客户。id若已存在则终止添加。2）添加姓名输入字母或汉字则正常添加。否则提示姓名必须为字符，并再次输入。第三次输入时有额外提醒。三次输入失败后终止添加客户。3）添加年龄输入纯数字则正常添加。否则会有提示，并跳过添加年龄。4）添加电话输入符合手机号码格式则正常添加。不常见的电话号码也可以添加。不是电话号码则提示，并跳过添加电话。

2025-11-21 08:00:00 26

原创 16、大模型技术之Python(第 16 章正则表达式)

正则表达式（regular expression，常简写为regex、regexp或re），是一种用于匹配和操作文本的强大工具，它是由一系列字符和特殊字符组成的模式，用于描述要匹配的文本模式。正则表达式可以在文本中查找、替换、提取和验证特定的模式。

2025-11-20 08:00:00 433

原创 15、大模型技术之Python(第 15 章网络编程)

IP地址由一串数字组成，用来标识一台电脑在网络中的位置。当设备连接网络，设备将被分配一个IP地址，用作标识。通过IP地址设备间可以互相通讯。IP地址有两个主要功能：标识设备或网络，以及寻址。Windows下可以在命令提示符中使用ipconfig查看网络适配器的IP。Linux下可以在终端中使用ifconfig或ip addr查看IP。这里的端口指的是逻辑端口，即TCP/IP协议中的端口。端口用于进程（应用软件）在同一设备或不同设备之间通信。每个端口有一个对应的端口号。端口号有65536个。

2025-11-19 08:00:00 258

原创 14、大模型技术之Python(第 14 章Python进程与线程)

进程是操作系统进行资源分配的基本单位。操作系统中一个正在运行的程序或软件就是一个进程。每个进程都有自己独立的一块内存空间。一个进程崩溃后，在保护模式下不会对其他进程产生影响。多进程是指在操作系统中同时运行多个程序。import osprint("进程id：", os.getpid(), "\t父进程id：", os.getppid())p.start()线程是处理器任务调度和执行的基本单位。一个进程至少有一个线程，也可以运行多个线程。多个线程之间可共享数据。

2025-11-18 08:00:00 1435

原创 13、大模型技术之Python(第 13 章Python高级语法)

生成器（generator）是一个用于创建迭代器的简单而强大的工具。它的写法类似于标准的函数，但当它要返回数据时会使用 yield 语句。当在生成器函数中使用 yield 语句时，函数的执行将会暂停，并将 yield 后的表达式作为当前迭代的值返回。每次调用生成器的 next() 方法或使用 for 循环进行迭代时，函数会从上次暂停的地方继续执行（它会记住上次执行语句时的所有数据值），直到再次遇到 yield 语句。这样，生成器函数可以逐步产生值，而不需要一次性计算并返回所有结果。

2025-11-17 08:00:00 791

原创 12、大模型技术之Python(第 12 章模块与包)

Python中一个以.py结尾的源文件即为一个模块（Module）。其中可以包含变量、函数和类等。通常情况下，我们把能够实现某一特定功能的代码放置在一个文件中作为一个模块。使用模块提高了代码的可维护性，也提高了代码的复用性。即编写好一个模块后，只要是实现该功能的程序，都可以导入这个模块实现。另外，使用模块也可以避免名称冲突，相同名字的函数或变量可以分别存在与不同的模块中。包是一种管理 Python 模块命名空间的形式.通过使用.模块名来构造Python模块命名空间的一种方式。

2025-11-16 08:00:00 704

原创 11、大模型技术之Python(第 11 章错误和异常)

Python是一门解释型语言，只有在程序运行后才会执行语法检查。所以，只有在运行或测试程序时，才会真正知道该程序能不能正常运行。Python有两种错误很容易辨认：语法错误和异常。通过直接或者间接继承Exception类来创建自己的异常。try:print("触发自定义异常:", e.value)

2025-11-15 08:00:00 890

原创 10、大模型技术之Python(第 10 章面相对象案例：愤怒的小鸟)

在这个模拟的愤怒的小鸟游戏世界里，绿色的小猪偷走了小鸟们的蛋，这引发了小鸟们的愤怒，它们决定展开反击。每只小鸟都具有独特的颜色，并且各自拥有不同的技能，玩家需要操控这些小鸟，利用它们的技能去攻击小猪们建造的各种障碍物，从而达成击败小猪、夺回鸟蛋的目标。

2025-11-14 08:00:00 1167

原创 9、大模型技术之Python(第 9 章面向对象之三大特性)

将变量和函数写入类中的操作即为封装，即类中封装了属性和方法。通过封装，我们可以将一些细节隐藏起来（私有），只暴露出必要的接口供调用者使用。

2025-11-13 08:00:00 1310

原创 8、大模型技术之Python(第 8 章面向对象之类和对象)

1）语法class 类名 : """类说明文档""" 类体类名一般使用大驼峰命名法。类体中可以包含类属性（也叫类变量）、方法、实例属性（也叫实例变量）等。2）案例定义一个人的类，包含init() 方法、eat() 方法和 drink() 方法。"""人的类"""并非必须在类定义中进行方法定义，也可以将一个函数对象赋值给一个类内局部变量。# 在类外定义的函数class C:f = f1。

2025-11-09 08:00:00 742

原创 7、大模型技术之Python(第 7 章文件操作)

文件名通常包含文件的名称和扩展名，扩展名用于表示文件的类型（例如 .txt 表示文本文件，.jpg 表示图像文件）。read([size]) 可以从文件中读取数据，size 表示要从文件中读取的数据的长度（单位是字节），如果没有传入 size 则读取文件中所有的数据。readlines([size]) 读取所有行并返回列表，若给定 size>0，返回总和大约为 size 字节的行，实际读取值可能比 size 大。在编写程序的时候，数据是以二进制的形式存储在内存的，将数据写到磁盘文件的过程称之为持久化。

2025-11-08 08:00:00 387

原创 6、大模型技术之Python(第 6 章函数的用法)

Python 定义函数使用 def 关键字，一般格式如下：def 函数名 (参数列表) :函数体[return]1函数代码块以def关键词开头，后接函数标识符名称和圆括号 ()。2任何传入参数和自变量必须放在圆括号中间，圆括号之间可以用于定义参数。3函数的第一行语句可以选择性地使用文档字符串—用于存放函数说明。用三个引号括起来,单引号和双引号都可以。4函数参数后面以冒号结束。5函数体开始缩进。6return [表达式] 结束函数，选择性地返回一个值给调用方。

2025-11-07 19:30:00 1623

原创 5、大模型技术之Python(第 5 章容器数据类型)

序列（Sequence）是一种基本且核心的数据结构，它允许我们以有序的方式存储和操作数据。序列可以包含不同类型的元素，并且支持通过索引来访问和修改这些元素。常见的序列类型包括：列表（List）、元组（Tuple）、字符串（String）。

2025-11-04 08:00:00 662

原创 4、大模型技术之Python(第4章流程控制语句)

流程控制就是用来控制计算机指令的执行顺序。

2025-11-03 08:00:00 925

原创 3、大模型技术之Python（第 3 章基础知识）

变量是指在程序执行过程中，其值可以改变的量。在内存的数据区中，会为变量分配存储空间来存放变量的值，这个内存空间的地址对应着变量名称，所以在程序中可以通过变量名称来区分和使用这些内存空间。它的唯一目的是在内存中标记和存储数据,这些数据可以在整个程序中使用。可以将变量理解为一个可以赋给值的标签，也可以说变量指向特定的值。

2025-11-02 08:00:00 970

原创 2、大模型技术之Python（第 2 章快速入门）

集成开发环境（简称：IDE；英文名：Integrated Development Environment ）是用于提供程序开发环境的应用程序，一般包括代码编辑器、编译器、调试器和图形用户界面等工具。集成了代码编写功能、分析功能、编译功能、调试功能等多种功能。虽然我们也可以使用记事本编写代码，并通过命令行调用Python解释器来执行Python程序。但这样比较繁琐，会降低开发效率。而使用IDE后，很多工作可以交给IDE帮我们去做，让我们可以专注于代码的编写。

2025-11-01 08:00:00 999

原创 1、大模型技术之Python(第1章遇见python)

计算机（computer）俗称电脑，是现代一种用于高速计算的电子计算机器，可以进行数值计算，又可以进行逻辑计算，还具有存储记忆功能。是能够按照程序运行，自动、高速处理海量数据的现代化智能电子设备。由硬件系统和软件系统所组成，没有安装任何软件的计算机称为裸机。--百度百科【计算机】

2025-10-30 09:45:09 1477

原创 4-Kafka日志索引详解以及生产常见问题分析与总结

上一章节Kafka的核心集群机制，重点保证了在复杂运行环境下，整个Kafka集群如何保证Partition内消息的一致性。这就相当于一个军队，有了完整统一的编制。但是，在进行具体业务时，还是需要各个Broker进行分工，各自处理好自己的工作。每个Broker如何高效的处理以及保存消息，也是Kafka高性能背后非常重要的设计。这一章节还是按照之前的方式，从可见的Log文件入手，来逐步梳理Kafka是如何进行高效消息流转的。

2025-10-30 08:00:00 688