![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习算法
文章平均质量分 62
一颗西柚子
这个作者很懒,什么都没留下…
展开
-
机器学习-kmeans-调包和手写源代码
聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程,聚类就是一种发现这种内在结构的技术,聚类技术经常被称为无监督学习。k均值聚类是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k,k由用户指定,k均值算法根据某个距离函数反复把数据分入k个聚类中。KMeans算法通过试着将样本分离到 个方差相等的组中来对数据进行聚类,从而最小化目标函数 (见下文)。该算法要求指定集群的数量。原创 2022-11-18 09:57:53 · 912 阅读 · 1 评论 -
使用 TF-IDF 算法将文本向量化
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。提示:以下是本篇文章正文内容,下面案例可供参考TF-IDF算法介绍及实现TF-IDF算法详解百度百科——tf-idf。原创 2022-11-12 17:18:32 · 4098 阅读 · 3 评论 -
决策树之鸢尾花分类
决策树鸢尾花分类sklearn代码原创 2022-09-09 10:31:03 · 686 阅读 · 1 评论 -
新手入门机器学习案例(附源代码)
无原创 2022-06-23 19:12:57 · 4772 阅读 · 0 评论 -
机器学习之西瓜书白话解读学习
西瓜书,机器学习原创 2022-06-15 21:38:47 · 260 阅读 · 0 评论 -
一元线性回归
无原创 2022-06-09 17:12:38 · 68 阅读 · 0 评论 -
数据可视化及预测,以及一些异常值检测算法
w原创 2022-06-09 17:07:41 · 361 阅读 · 0 评论 -
机器学习常见算法
1.KNN算法kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。是从训练集中找到和新数据最接近的k条记录,然后根据他们的主要分类来决定新数据的类别。该算法涉及3个主要因素:训练集、距离或相似的衡量、k的大小。#1.导入:分类问题:from sklearn.neighbors import KNeighborsClassifier回归问题:from sklearn.neighbors import KNeighborsRegressor原创 2022-05-08 12:16:58 · 3421 阅读 · 1 评论 -
均值漂移聚类算法
不调用包实现在Mean Shift算法中,最关键的就是计算每个点的偏移均值,然后根据新计算的偏移均值更新点的位置。对于给定的维空间中的个样本点,则对于点,其Mean Shift向量的基本形式为:基础版本:import numpy as npimport matplotlib.pyplot as pltX1, y1 = make_blobs(n_samples=200, n_features=2, centers=2)#plt.scatter(X1[:, 0],X1[:, 1])def原创 2022-05-14 14:50:30 · 856 阅读 · 0 评论 -
关联规则之Apriori算法
Apriori算法(调包实现)算法简单描述:两个重要参数:1、频繁项集(frequent item sets)。包括计算:频繁项集的支持度(support)2、关联规则(association rules)。包括计算:关联规则的置信度(confidence)频繁项集(frequent item sets),支持度(support)单是肉眼去观察的话,似乎顾客经常购买P1, P2这样的组合。这种的购物中出现的经常的组合,就是我们要找的频繁项集了。项集可以由一个商品组成,也可以由多个商品组成。比如原创 2022-05-16 15:14:17 · 1244 阅读 · 0 评论