小白学习指南-CSDN博客

原创 linux慎用 rm -rf

注意：rm -rf命令后面不能加“/”，否则它会把你的系统文件全部删除，在此着重关注一下！如果你接触过linux，肯定没少听过rm -rf的故事，这个恐怖的命令执行后到底会产生什么样的效果呢？接下来就带大家在虚拟机中演示一下。注意：：：一定不能在生产环境中执行此命令，否则没有后悔药可买的！因此平时操作的过程中要养成良好的习惯，尽量不要用rm命令，可以...

2018-11-21 12:01:10 886

原创论大模型的解题能力

1.deepseek（没读到立方体的图）问：这个题的答案是什么？

2025-07-29 16:29:03 237

原创深入理解XGBoost（何龙著）学习笔记（五）

本文接上一篇，内容为线性回归，介绍三部分，首先介绍了"模型评估”，然后分别提供了线性回归的模型代码：scikit-learn的LinearRegression 和 xgboost的gblinear 。

2025-06-20 23:16:49 788

例如，f(x,y),对参数x求偏导为∂f/∂x，对参数y求偏导为∂f/∂y，组成梯度向量(∂f/∂x, ∂f/∂y)ᵀ，简称为∇f(x,y)。函数f(x,y)在点（x0,y0）处沿着∇f(x,y)移动，其函数值增加的最快，换一句话说，如果沿着梯度的反方向，则函数值下降的最快，更容易找到最小值。线性回归的目标是，对于输入向量x，预测其目标值y。可以看到，在计算梯度距离时会乘一个步长系数α，梯度向量决定了梯度下降的方向，而步长则决定了梯度下降的距离，还是以下山为例，步长就是沿最陡峭的方向向前走一步的距离。

2025-06-18 08:55:40 1019

原创深入理解XGBoost（何龙著）学习笔记（三）

本章首先介绍了基础的机器学习算法的实现原理和应用；然后对决策树模型做了详细介绍；最后，讲解了排序问题、神经网络和支持向量机。

2025-05-07 14:36:16 1157

原创深入理解XGBoost（何龙著）学习笔记（二）

Matplotlib是一个强大的Python库数据可视化库，可以方便地创建多种类型的图表

2025-04-23 21:06:41 281

原创深入理解XGBoost（何龙著）学习笔记（一）

1.1 何谓机器学习🚜 概述：机器学习的定义：机器学习领域知名学者Tom M.Mitchell定义如下：如果计算机程序针对某类任务T的性能（用P来衡量）能通过经验E来自我改善，则认为关于T和P，程序对E进行了学习。通俗地讲，机器学习是计算机针对某一任务，从经验中学习，并能越做越好的过程。🚜 机器学习所需的基础知识有以下几类： 1）数学：线性代数（矩阵变化）、高等数学；2）概率分布：回归分析等统计学基础知识；3）Python、Numpy、Pandas等数据处理工具；

2025-04-23 21:01:46 828

原创 DeepSeek差一点、智谱清言和讯飞星火好一点的一个测试案例

测了这么多轮，终于发现DeepSeek有一些小瑕疵，就像好学生也有缺点一样~

2025-03-26 11:36:38 383

原创 DeepSeek和讯飞星火模型针对一段代码的输出比较

本轮DeepSeek完全胜出，例子具体详实，更能给初学者解释疑惑。

2025-03-24 11:03:31 308

原创讯飞星火和deepseek针对一段transformer代码给的注释

这段代码实现了一个用于Transformer模型中的**位置编码（Positional Encoding）**模块。位置编码的作用是为序列中的每个位置添加一个独特的编码，以便模型能够区分不同位置的词或符号。2.从输出内容上，1）DeepSeek更详细，在文章结尾，给出一个实例，让初学者更明白模型的原理。2）DeepSeek深入到代码中，解释具体代码的含义这一点对初学者很友好。1.从输出形式上来看，讯飞星火更有好一些。把注释嵌入到代码中。DeepSeek逐行分析。

2025-03-24 10:09:00 459

原创 deepseek、讯飞星火、智谱清言三个模型针对一段transformer代码的回答，第二回合（续各有特色）。

在这个数据集中，序列数据是按时间顺序排列的每小时数据点。模型通过学习历史数据的模式来预测未来的目标变量。具体来说，模型会接收过去一段时间的历史数据作为输入，并输出未来一段时间的目标变量预测值。大模型时代，是毛主席描述的《沁园春.长沙》的意境时代。

2025-03-12 15:58:52 1156 1

原创 deepseek、讯飞星火、智谱清言三个模型针对一段transformer代码的回答，各有特色。

这段代码的作用是为输入序列添加位置信息，让Transformer模型能够感知序列中每个元素的位置。通过正弦和余弦函数生成的位置编码，模型可以捕捉到序列中的相对位置关系。如果有其他问题，欢迎继续提问！

2025-03-12 15:35:06 1202

原创 ZPQY的AI绘画测试

这幅画是根据您提到的沁园春长沙”中的诗句“看万山红遍，层林尽染，漫江碧透，百舸争流”创作的。画面采用了简洁的绘画风格，通过简单的线条和色彩描绘出了红色覆盖的山峦、色彩斑斓的森林、清澈的河流以及河上竞相行驶的小船。画面展现了一幅传统中国风格的山水画，山峦被丰富的红色植被覆盖，层层树木呈现出不同的红色调，营造出一种生动而深邃的景象。在这幅画的基础上，我已经增加了“漫江碧透，百舸争流”的景色。用简洁的绘画风格，创作一幅简笔画，内容根据沁园春长沙中的“看万山红遍，层林尽染，漫江碧透，百舸争流“做一幅画。

2025-02-24 10:43:20 489

原创文心一言、讯飞星火、KIMI、秘塔AI针对同一问题的回答

2)……n）kimi给出例子，但是答案不对。

2024-07-01 10:15:52 1220 1

原创 pyspark初学含义

如果使用jupyter调试pyspark程序，可以配置spark.sql.repl.eagerEval.enabled选项，可以像pandas一样直接执行df即可查看数据（不需要手动调用show函数）：

2023-07-07 09:47:47 397

原创 idea无法显示scala插件怎么办

新安装idea，无论怎么搜plugin这里都没有scala,后来有帖子说，项目中没有scala文件，但是没说具体怎么弄。后来想了一下，在项目中新建一个文件，后缀改为.scala,果然这个出现了，具体如下：新建了这个.scala文件...

2022-01-20 17:32:23 1696

原创 MAC安装jdk，hadoop见知乎好帖子

MAC JDK

2022-01-18 13:00:27 1875

原创深度实践SPARK机器学习_学习笔记_第二章2.4探索数据1

2.4.1 数据统计信息schemauser.describe("userid","age","gender","occupation","zip").show()

2022-01-09 21:03:55 1443

原创深度实践SPARK机器学习_学习笔记_第二章2.3加载数据

spark 深度实践机器学习

2022-01-08 14:39:40 1326

原创【如何把hive表中的数据放入模型中去训练】

网上的都是使用txt导入模型。如下：Classification and regression - Spark 2.2.0 Documentational data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")// Automatically identify categorical features, and index them.// Set maxCategories so feature

2021-12-27 11:16:56 391

原创 spark 多分类的特征选择

特征选择好像不是全局的选择

2021-12-15 10:59:21 1784 1

原创 scala加工特征遇到数组越界问题解决

1.在scala加工模型特征过程中，libsvm形式的数据报错内容：executor 40): java.lang.ArrayIndexOutOfBoundsException: 1判断方法：如果部分样本可以跑通，全量数据无法跑通，99%的概率为数据问题。比如分隔符错误划分特征，把不是特征的字段分割为特征。感谢cong哥～...

2021-12-06 16:08:24 433

原创本地运行报错 java.lang.ClassNotFoundException: org.apache.spark.SparkConf

报错1:本地运行scala，报如下错误：java.lang.ClassNotFoundException: org.apache.spark.SparkConf，或调试：在pom文件中注掉红色字体一行 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_${scala.version...

2021-11-30 10:30:46 4213 2

转载 type struct和struct

报错内容：Exception in thread "main" java.lang.IllegalArgumentException: requirement failed: Column features must be oftype struct<type:tinyint,size:int,indices:array<int>,values:array<double>> but was actuallystruct<type:tinyint,size

2021-11-29 23:36:53 782

原创如何txt数据导入到hive表中

报错1:Error: java.io.FileNotFoundException: Path is not a file背景：建orc表报错1 FIELDS TERMINATED BY '\t'STORED AS ORCTBLPROPERTIES ('orc.compress'='SNAPPY');解决方法：修改表格式为text表 FIELDS TERMINATED BY '\t' stored as textfile;语句：load data inpath 'hdfs:&a...

2021-11-29 14:43:10 2768 2

原创 scala特征加工中的报错记录和调试

错误1:You provided indices and values, which exceeds the specified vector size 13错误1:va.lang.IllegalArgumentException: requirement failed: You provided 262 indic分析：特征数量不匹配，特征中的和在计算过程中计算的不一致，检查代码特征数量计算是否有错误错误2:java.lang.NumberFormatException: For input

2021-11-26 10:07:24 1445

原创关于empty collection的报错 scala

Exception in thread "main" java.lang.UnsupportedOperationException: empty collection整了很久，mark一下，是因为RDD里面没有数据，报这个错误。

2021-07-19 09:20:53 866 1

原创将文件放在一个路径下

hadoop fs -put xiaoming.txt hdfs路径

2021-07-16 15:54:09 243

原创初学Scala如何调试代码——关于ScalaWorksheet的使用

1.如何进入ScalaWorksheet使用idea，file -》 new -》ScalaWorksheet，如下图：2.如何调试调试语句如下：zipval symbols = Array("[","-","]")val counts = Array(2,5,2)val pairs = symbols.zip(counts)for((x,y) <- pairs) Console.print(x * y)运行结果：symbols: Array[String]

2021-07-09 11:11:18 604

原创 fondFirstNegative是scala中的一个函数吗

import scala.collection.mutable.ArrayBufferval a = ArrayBuffer[Int]()a += (1,2,3,4,5,-1,-3,-5,-7)

2021-05-28 14:31:28 117

原创 hive中时间戳和日期相互转化

select distinct unix_timestamp(‘2011-12-07 13:01:03’);select distinct from_unixtime(1323234063,‘yyyy/MM/dd HH:mm:ss’) ;

2021-04-20 17:20:52 1768

原创《深入理解XGBOOST》学习笔记 KNN 近邻模型通俗解释

标题

2021-03-24 14:03:10 575

原创 scala打包

非常感谢小伙伴帮我调bug，虽然没有当面感谢，但很感动在聪哥的指导下，开始打包；执行mvn -U package试试原因是手动打包xgb失败，报错：Caused by: java.lang.ClassNotFoundException: ml.dmlc.xgboost4j.scala.spark.XGBoostClassifier先想想mvn -U package怎么写？mvn -U model.xgbmodelmvn -U -X model.xgbmodel报错：[Help 1] htt

2021-03-04 01:05:54 538 2

原创 Mac安装Scala、idea基本操作

Mac 查找java安装路径/usr/libexec/java_home -V2.打开配置文件open .bash_profile3.配置Scala和java配置文件（参考其他链接）export SCALA_HOME="/路径"PATH="$PATH:/路径"Export JAVA_HOME=/路径4.查看java是否安装成功java -version...

2021-02-28 19:09:40 662

原创 Spark sql :load和save操做--spark学习笔记之一

对于spark SQL的DataFrame来说，无论是从什么数据源创建出来的DataFrame，都有一些共同的load和save操作。load操作主要用于加载数据，创建出DataFrame；save操作主要用于将DataFrame中的数据保存到文件中。scala实现：package **.tag.testimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}.

2020-06-03 16:55:22 565

原创如何提交jar包到集群上执行？如何把电脑本机路径的文件上传到服务器上

如何提交jar包到集群上执行？spark-submit --class 包名+类名 /home/****/myScala.jar> rizhi.txt其中：spark-submit 是命令–class 包名+类名，包名为jj.tag.test 类名为 DataFrameOperation>rizhi.txt 是把日志打在rizhi.txt文件中*如何将电脑本机路径的文件上传的服务器上？hadoop dfs -put /home/**** hdfs://****其中

2020-06-03 14:34:58 386

原创验数时需要去掉分隔符前后在数据，怎么办？

在这里插入图片描述1000000#食品饮料#136.4352001841384，想用电子表格提取#前中后的字符串：step1:=MID(H5,FIND("#",H5)+1,50)得到结果食品饮料#136.4352001841384step2：=MID(I5,FIND("#",I5)+1,50)得到结果136.4352001841384step3:=LEFT(H5,6) 这是为了取出带一个分隔符的字符串step4:=IF(ISERROR(FIND("#",L5)),L5,LEFT(L5,

2020-05-15 16:26:17 233

原创 IDEA运行无法加载主类

IDEA 运行Scala程序出现无法加载主类问题的解决1.编码问题

2020-05-11 22:13:01 257

原创 scala开发新建文件，不显示scala class

scala开发新建文件，不显示scala class首先，鼠标选定项目，单击右键，，其次，选择Add FrameWorks Support,弹出第二张图，选择scala。图片展示如下：（改方法仅限配置好plugin，选择文件夹为source之后还不出现scala class的情形）欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们

2020-05-11 15:38:08 545

原创如何将hive中字符串解析（字符串的连接、解析）

场景：（1）将表中的字段转化成json数组，合并列，然后再合并行。建测试表，1315 、11729为表中某字段的值分属于不同的行，123、456为另一字段的对应行数字。准备测试数据，样例如下：[{"c1":"1315","c2":"123"},{"c1":"11729","c2":"456"}]。（2）将上述样例解析为表中的字段值1315、123。1.准备测试数据的方法：1)用：连接s...

2019-08-16 14:45:33 3000

u.user 深度实践spark机器学习2.3所需数据

空空如也