- 博客(4)
- 收藏
- 关注
原创 mysql某两列数据拆分,用逗号将一行拆成多行,两列拆分顺序保持一致
表里有两列数据,只看第1和2行,每一列都是用逗号拼接的长字符串,两列拼接的逗号数量是一样的,每个短字符串的长度不一定,有数字有汉字。ps:也可能出现第3、4行数据jk l m 这种和另一列不对照的情况,各位大佬有没有思路,能处理就按照表中示意的结果匹配。不行的话就不处理这样的数据了,我可以提前比对下这两行的逗号数量,筛选数量一致的去拆分。
2024-08-13 16:03:07 373
原创 CART、ID3、C4.5算法及python实现
CART决策树简介决策树是数据挖掘方面一个非常重要的方法,它常常用于解决分类和预测方面的问题,是一个基于逻辑的监督式学习方法。决策树是一种以树形结构组织的规则集合, 从顶点到每个结点的路径都是一条分类规则,可以通过层层规则把数据进行切割划分到正确的类别上,它相对于其他方法来说更擅长处理一些非数值型的数据。构建决策树的过程是一个从上往下依次将数据放入各层规则中检验的过程,从包含了所有数据的根节点开始,每经过一个规则都会把数据进行划分并生成新的节点,根据规则的设定会生成叶子节点或非叶子节点,生成的非叶子节
2020-06-15 19:12:04 2026 1
原创 kNN算法及python实现
kNN算法算法概述kNN算法又称为k近邻分类(k-nearest neighbor classification)算法,可以解决分类和回归的问题。kNN算法主要是通过距离判定出训练集中离待测样本最近的k个样本,然后统计这k个样本的类别,次数最多的类别或加权后距离最小的点的类别为新数据的类别。距离越近,类别判定的准确度越高。算法原理kNN算法有3个主要因素:训练集、距离衡量、k值。训练集少且种类少的时候算法有效,训练集大的时候要使用KD树和球树的方法建立模型。距离衡量的方法有多种,目的都是搜索最近
2020-06-15 18:52:37 982 1
原创 K-Means算法及python实现
K-Means算法介绍K-Means算法是一种常用的聚类算法,也称为K-均值聚类或快速聚类法。K-Means算法将数据划分为预设的K类,以样本点到聚类中心之间的距离作为研究的评价指标,以最小平方误差作为准则函数,迭代至距离平方和趋于稳定且小于某个特定数值或达到指定迭代次数,此时聚类完成。原理K-Means算法通过确定每个样本与其聚类中心点的距离的最小值,得出聚类方案的一种算法。研究对象为连续属性时,距离判定方法有欧氏距离、曼哈顿距离、闵可夫斯基距离等,最常用的是欧氏距离;研究对象为文档数据时,常使用
2020-06-15 18:41:54 461
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人