自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 机器学习05-聚类算法(python)SC(轮廓系数)详解

凝聚度表示与簇 1 中其他点的平均距离。分离度表示) 与最近簇(簇 2)的平均距离。轮廓系数,表示样本聚类效果较好,值接近 1,说明它更好地属于它所在的簇。

2024-09-14 21:20:48 1090

原创 MapReduce的运行机制详

整个Map 阶段的流程大体:简单概述: inputFile 通过split 被逻辑切分成多个 split 文件,通过 Record 按行读取内容给map (用户自己实现的)进行处理,数据被map 处理结束后,交给OutputCollector 收集器,对其结果 key 进行分区(默认使用 hash 分区),然后写入buffer ,每个 map Task 都有一个内存缓存区,存储着 map 的输...

2024-09-14 15:20:44 400

原创 机器学习05-聚类算法(python)

首先随机选择 3 名学生的成绩作为质心,然后算法根据每个学生的成绩将他们分配到最近的质心组,最后通过迭代更新每组的中心点,直到不再变化。这是因为网站通过聚类算法分析了成千上万的用户购买行为,找到了和你相似的用户,并推荐给你他们喜欢的商品。没有事先给出类别标签,算法会通过计算样本之间的相似度,把相似的样本自动归到一个组里,不同的算法和距离衡量方法会产生不同的分组结果。你可以看到四个不同的散点图,这些图显示了随着簇的数量变化,数据被如何分成不同的组。,把相似的东西放在一组里,而把不同的东西分到不同的组中。

2024-09-14 15:17:37 1280

原创 机器学习05-聚类算法(python)

首先随机选择 3 名学生的成绩作为质心,然后算法根据每个学生的成绩将他们分配到最近的质心组,最后通过迭代更新每组的中心点,直到不再变化。细分类的话,我们可以把“玩得来的朋友”再分成“喜欢运动的朋友”和“喜欢艺术的朋友”。这是因为网站通过聚类算法分析了成千上万的用户购买行为,找到了和你相似的用户,并推荐给你他们喜欢的商品。没有事先给出类别标签,算法会通过计算样本之间的相似度,把相似的样本自动归到一个组里,不同的算法和距离衡量方法会产生不同的分组结果。,把相似的东西放在一组里,而把不同的东西分到不同的组中。

2024-09-13 17:49:25 391

原创 机器学习05-决策树(python)

决策树在生活中有广泛的应用,通过逐步判断条件并做出相应选择,可以简化复杂的决策过程。无论是日常穿衣、选择餐厅,还是购买物品,决策树都可以帮助你快速、逻辑清晰地做出决策。这种方式不仅适用于个人决策,也在商业和管理中得到了广泛应用,如客户分类、产品推荐等。信息熵(Entropy)是度量信息的不确定性的一种工具。在机器学习中,信息熵通常用于衡量一个系统或数据集的混乱程度或不确定性。生活中的信息熵与机器学习中的信息熵原理相同,都是用来描述系统中随机性或不确定性的大小。

2024-09-11 16:21:22 1091

原创 机器学习04-逻辑回归(python)

它的核心思想是,给定观测到的样本数据,选择最有可能使这些观测结果发生的参数值。在逻辑回归中,概率是用于计算某个事件(例如某个类别)的发生可能性的基础。例如,在预测一个病人是否患病时,模型输出的概率值表示病人患病的可能性。联合概率是指两个或多个随机事件同时发生的概率。在逻辑回归中,Sigmoid 函数的作用是将线性回归的输出结果(一个任意实数)映射到 0 到 1 之间的区间,用来表示预测某个事件发生的概率。对数似然函数的最大值与似然函数的最大值出现在相同的点,但计算对数可以使乘法变成加法,极大地简化计算。

2024-09-09 11:53:18 1479

原创 机器学习03-线性回归(python)

求: 损失函数最小值的时候,就是那条最优直线 ( K 和 B 从数据中学习的参数 ,如果调优也是计算机学习调优。和超参数这种人工设定是有区别的。3. 那么怎么找到那一条让更多点经过的直线的呢?用偏导数求损失函数 偏导 等于0的时候的 K 和 B。主要是算法去计算斜率和截距,然后使用算法去预测。为什么W是向量,为什么会变成向量呢。2. 已经知道每两个点会有一条直线。3.国内GDP与双十一销售额。2. 昆虫鸣叫次数与天气。损失函数什么时候使用呢?1.钢轨伸缩长度与温度。1. 样本会有多条数据。

2024-09-06 15:55:57 400

原创 机器学习02-KNN算法(python)

Knn: k-近领算法:K 是个数,由算法工程师设计,NN 是邻居, 近邻就是距离的意思,而平面的两点距离就是欧式距离。比如说,你最近的3个邻居的距离。那么k 就是3,NN就是这最近3个邻居。k: 是算法工程师设计的,所以叫做超参数,调参,就是调的超参数。K的建议: 不建议用偶数,不建议超过7,不建议是类别个数的倍数。回归的时候: 判断最近K个最近样本目标的平均值。分类的时候: 判断最近K 个最近样本的类别。

2024-09-05 10:39:49 130

原创 机器学习01 概述(python)

计算机的算法就相当于人类的大脑,人类的能力来自于经验,因此这个经验就是,计算机的历史数据,算法从计算机的历史数据中进行学习,比如训练使用已经知道标注好是猫狗的图片去学习识别猫狗(就是训练模型),训练模型完成后(学会了),那么模型已经学好了之后,就可以用模型去解决旧的问题或者新的问题(模型分类,模型预测,比如识别新的猫狗。一个的神经传递信号,比如摸到了火,很烫,(输入信号),那么人会产生一个缩手的动作(输出信号)神经元:信号传递,堆叠在一起(神经元越多,能力越强,神经元越少,能力越少)

2024-09-04 09:24:11 545

原创 Python算法之排序

算法是为了解决实际问题而设计的,数据结构是算法需要护理问题的载体,高效的程序需要在数据结构的基础上设计和选择算法。初级排序问题:即使数据一开始是顺序排好了,或者内层循环发现已经是顺序的了代码依旧会循环下去,浪费资源。优化版本,第一轮发现是排好序了之后,后续就不会继续执行了。3.稳定性算法和不稳定性算法举例。python冒泡排序(优化版本)1.什么是排序和排序算法?2.什么是稳定性算法?

2024-08-26 12:06:09 249

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除