![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python机器学习
lixia0417mul2
避免成为那些从来没有接触过真正技术的所谓技术生涯
展开
-
flink和机器学习模型的常用组合方式
flink和机器学习模型的组合原创 2023-11-23 21:12:04 · 760 阅读 · 0 评论 -
chatapt 简介
chatgpt chatgpt前景 chatgpt问题原创 2023-03-31 21:51:30 · 1274 阅读 · 0 评论 -
spark 机器学习流水线 pineline所组合的转换器的入参出参问题
spark pineline构建流水线 pineline流水线的转换器之间的出参和入参 机器学习模型保持和加载原创 2022-12-21 02:09:30 · 210 阅读 · 0 评论 -
spark机器学习特征转换之VectorIndexer
VectorIndexer 字符串分类列如何使用VectorIndexer离散化 VectorIndexer 作用 VectorIndexer例子原创 2022-10-30 20:00:59 · 612 阅读 · 0 评论 -
随机森林回归树官方例子小结
这个例子只是对官方的决策树的几个例子进行解释,重点在于理解特征处理前的fit操作from pyspark import SparkConffrom pyspark.ml.feature import VectorIndexerfrom pyspark.sql import SparkSessionimport tracebackfrom pyspark.sql.types import *from pyspark.sql.functions import *from pyspark.ml.re原创 2022-05-13 02:20:00 · 678 阅读 · 0 评论 -
随机森林 + 梯度提升树 算法小结
决策分类树决策分类树是一种用于预测离散数值的一种数据结构,基本原理是遍历每一个特征和每一个特征的阈值,使得在进行节点分解时,找到合适的特征或者分隔阈值,从而使得两个子分支的熵最大,熵最大直观的理解(以预测是否晴天为例)就是左分支都是晴天,而右分支都是雨天,也就是每个子分支的晴天和雨天的比例最大化,远离1:1的比例决策回归树决策回归树是一种用于预测连续数值的一种数据结构,基本原理是遍历每一个特征和每一个特征的阈值,使得在进行节点分解时,找到合适的特征或者分隔阈值,从而使得两个子分支的均方差最小化,均方差原创 2022-05-12 02:20:55 · 797 阅读 · 0 评论 -
数据特征处理pca降维-小结
1.降维的主要目的是为了减少训练样本的时间,只保留重要的特征,去掉一些无关紧要的特征,至于是去掉哪些特征,保留哪些特征,这个就是pca要做的事情了,类似以下的例子:日期 湿度 温度 是否购买衣服2022 9 20 是2022 19 26 是2022 15 26 否是否购买衣服与否和日期关系不大,和温度和湿度的关系比较大,这个结论从数学意义上说就是去掉方差小的特征,保留方差比原创 2022-03-24 17:56:59 · 3899 阅读 · 0 评论 -
spark线性svm支持向量机 小结
spark的线性支持向量机只支持二分类,其目的是要寻找这样一个超平面:f(x)=wx+b,使得满足以下约束:在该超平面的两侧的样本的距离尽可能的大,也就是(wx+b=1)和(wx+b=-1)的距离尽可能大。可以达到这一个目标的参数w和截距b的值就是线性svm的模型,当求得w和b参数后,就可以用来预测样本的分类了:当输入的测试样本满足wx+b<0,那么就归类到-1这个类别中,当wx+b>0就归类到1这个类别中,这样就达到了二分类的目的,评估函数可以使用BinaryClassifyEval原创 2022-03-21 21:04:41 · 3364 阅读 · 0 评论 -
spark pineline流水线+聚类评估函数 小结
一.pineline的作用主要是由各个stages阶段组成,每个stage可以是一个transformer或者是一个esimator,比如VectorAssember就是一个transformer,它拥有transform方法,而LinearRegression就是一个estimator,它的fit方法得到对应的model,这个LinearRegressionModel是一个transformer,当pineline把多个transformer和estimator组合起来时,前一个stage的输入就是原创 2022-03-21 20:59:18 · 4533 阅读 · 0 评论 -
CNN卷积神经网络小结
一个普通两层卷积神经网络一般有以下四个部分组成:a 卷积层1:这里会使用卷积核矩阵对输入矩阵进行卷积运算,得到对应的特征值,这其中为了更好的数据,一般会使用到sigmod或者relu等函数,随后会经过池化操作(最大值池化或者平均值池化操作)得到处理后的特征值。b 卷积层2:这里也会使用卷积核矩阵对输入矩阵进行卷积运算,得到对应的特征值,这其中为了更好的数据,一般会使用到sigmod或者relu等函数,随后会经过池化操作(最大值池化或者平均值池化操作)得到处理后的特征值。c 全连接层:这一层的主要作用是原创 2022-03-20 01:10:29 · 863 阅读 · 0 评论 -
关联规则 FP-Growth小结
关联规则主要是为了解决经典的{啤酒}+{尿布}的组合问题,主要用于推荐商品组合以及为备货采购等提供依据支持度(A->B): A和B同时出现在整个数据集中的次数/数据集的总数,主要用户衡量频次,选出常见的项 --备注:这是没有顺序关系的,也即(AB和BA)是一样的置信度(A->B): A出现的情况下B存在的次数,也就是条件概率P(B|A) = P(AB)/P(A)=Num(AB)/Num(A),注意这个是条件概率,置信度(A->B)和置信度(B->A)是不一样的,主要用于表示当出原创 2022-03-18 14:45:54 · 1205 阅读 · 0 评论 -
保序回归 小结
算法小结: 给定一组观察者序列y1,y2,y3…,假设预测值是x1,x2,x3,保序回归是要最小化以下的函数:sum(wi(yi-xi)^2),其中x1,x2,x3是有序的序列,wi是正数值一般默认为1.0,保序回归可以看做是有顺序约束下的最小二乘问题,预测的函数一般是一个分段线性函数,训练返回的模型可以用来预测已知或者未知特征值的标签。应用的场景:1.不用的药物用量和病人应激性反应的程度,正常来说,随着药物用量的增加,病人的应激性反应越大2.图片赛马数量和图片平均点击率的关系,一般来说,图片的赛马原创 2022-03-13 20:23:23 · 2700 阅读 · 0 评论 -
生存回归小结
生存回归一般是预测病人服用新药后寿命或者灯泡灯芯的寿命,这两类问题有一个共同点就是有很多删失的数据,比如对于病人寿命来说,病人因为其他意外情况死亡了或者病人还活着,此时生存时间只能是统计成至少活了xx岁,而没有确切的数字,对于灯芯寿命也是一样,可能是中途灯泡因为其他原因坏了,或者一直没有坏掉,此时生存时间只能是统计成至少活了xx岁,也只能统计成至少xx小时,也没有确切的数字,对于这些大量没有确切生存数字样本,我们没有办法使用正常的均值和方差等方式来预测病人或者灯芯的寿命,所以就有了生存回归模型(AF原创 2022-03-10 11:42:04 · 1011 阅读 · 0 评论 -
决策树分类小结
我认为最主要建立决策树最主要要解决以下两个问题:1.树根怎么选,一般来说约上层的节点重要性越高2.节点按什么阈值分裂效果最好简单用一个例子来举例:年龄 职业 是否购买mac25 程序员 是50 程序员 是10 学生 否20 学生 是25 学生 否30 程序员 是25 程序员 否回答第一点问题:谁是更适合的根节点,那么假设我们按照年龄是否大于等于25来分类,那原创 2022-03-08 21:38:21 · 538 阅读 · 0 评论 -
逻辑回归小结
逻辑回归损失函数:loss = y * log(h) + (1-y) * log(1-h) + 正则化项其中h=1/(1+e-),正则化项是为了防止过拟合的,可以使用系数的L1或者L2作为惩罚项,防止过拟合这里逻辑回归的损失函数没有使用类似线性回归的方差最小化的原因是使用方差最小化很难收敛,而二分类本来只有0/1两个值,再加上h函数有e指数的形式,使用带log函数的最大似然估计更合适2.逻辑回归如何解决多分类问题,假设要分成A,B,C三类,那可以创建三个分类器:第一个分类器把A作为一类,B和C原创 2022-03-08 18:21:54 · 560 阅读 · 0 评论 -
pyspark TF-IDF分类垃圾邮件小结
分类垃圾邮件属于二分类问题,使用逻辑回归很容易做到,重点的问题是如果把文本单词转换成为特征,这里转换的方法就类似于Lucence中的方法,即TF-IDF,词频+逆文档频1.HashTF是计算单词的索引和频率的对应关系,比如(a对应的hash(a)所对应的单词数量)2.IDF是计算逆文档频率,也就是包含对应单词的文档数除于文档总数这样就可以把文本转换成数值特征向量的形式了。...原创 2022-02-14 00:20:45 · 508 阅读 · 0 评论 -
pyspark的ALS协同过滤推荐算法-小结1
ALS协同最小二乘法是用于推荐的常用算法,下面使用用户和电影的推荐作为例子解释其原理大致如下:1.何为协同过滤:R[mn] = U[mk]V[nk],其中k就是矩阵的秩,可以解释为有多少个隐藏的特征(比如安静类的电影),U表示是用户对电影隐含特征的偏好矩阵,另一个是商品所包含的隐含特征的程度的矩阵2.最小二乘法:ALS没有采用梯度下降法来求取目标值,他的代价函数是最小二乘法,也就是|R[- UV|平方和的最小值,但是一般为了得到的最终结果不会过拟合,求解损失函数的时候会加上一个正则化系数,如:L1正则原创 2022-02-11 02:04:46 · 829 阅读 · 0 评论 -
spark机器学习-分类回归总结
1.spark支持的分类包括以下几个场景:a.二分类,顾名思义就是只分成A和B两类b.多分类 分成A,B,C,D等多个分类不支持多标签分类,所谓的多标签分类是指一个样本可以属于多个分类,也就是比如样本X既属于A分类又属于B分类,spark目前不支持分类的算法主要有逻辑回归分类算法,决策树,随即森林等,不管是哪种算法,不同点主要在于支持的分类数量和样本数量的限制不同,评价分类算法的好坏的标志主要是看准确性和areaUnderRoc值2.线性回归与分类的主要区别是预测的结果是实数值,而不是离散值,原创 2022-02-05 01:58:34 · 3038 阅读 · 0 评论 -
yolo和mrcnn目标检测
1.共同点:通过已有的公开训练样本,两者都可以检测目标物体,目前两者的公开训练集中可以检测的物体大概有80种类,包括人体检测,汽车检测,动物检测等2.不同点:a.yolo检测速度比mrcnn快,但是mrcnn更准确b.mrcnn不仅可以标识出目标物体的矩形框,还可以标识出表示目标物体的mask掩码....原创 2021-06-13 02:40:18 · 222 阅读 · 0 评论