机器学习
文章平均质量分 65
机器学习的代码笔记
dd112474
这个作者很懒,什么都没留下…
展开
-
机器学习19 朴素贝叶斯算法NB 概念
有一个样本是否均衡的参数,为True时,后面乘以的P(嫁)和P(不嫁)也就不用算了,样本不均衡就调为False。P(A|B)表示在B条件下,A发生的概率 (从后往前)不知道样本均不均衡,就不管这个参数,让电脑自己判断就可以了。的大小,分母是一样的,所以其实只需要比较分子大小就ok。条件概率和全概率 是贝叶斯基础。贝叶斯是 朴素贝叶斯 的基础。原创 2022-09-09 22:44:35 · 355 阅读 · 0 评论 -
机器学习18 数据清洗小任务(楼盘数据清洗)
这三列,例如:有电视,就在房间描述出现‘电视’这一列标1,或者在房间描述出现‘彩电’也标1,或者在房间描述出现‘电视机’也标1,或者在房间描述出现‘有线电视’也标1,判断标1还是0这个操作可以用lambda函数来实现,他和def定义一个函数效果一样,但是更方便,适用于这种简单的函数操作。整体看看有哪些指标,先去重,目的是想把指标选出来,有这个指标我就打上1,没有就打0 (效果如上图)思路是把要删除的指标生成一个列表存起来,遍历这个列表里面的指标,在result里面remove这些指标。原创 2022-09-08 18:47:41 · 493 阅读 · 0 评论 -
机器学习16 逻辑回归LR 数学推导
KMeans 没有yDBSCAN 没有y,但是有半径和领域KNN 必须有y,y是离散型(看属于哪一类“近朱者赤”)线性回归 y是连续型逻辑回归 y是离散型。原创 2022-08-31 00:27:19 · 223 阅读 · 0 评论 -
机器学习15 线性回归(销售利润表.csv)调参实战代码 reshape(1,-1)
结果的准确性score全是负数,一是检查模型能不能调整优化,而是看看数据清洗转化是否出错,如果都没有那就不要用这个模型了,score要越接近1才越好。结果报错了,报错代码是:1D表示1维,arry表示numpy中的数组。目前运行就可以建模了,红色部分表示有效代码,其余部分自己打草稿用。但是报错了,有两种报错形式,是同一个意思:数组的行列反了,应该。还是会报错,因为这里一维数组是Series类型,我们要把。原因是我们这里是一维数组,线性回归必须要二维数组。或者直接出来以后强制转换一次。,后面直接调参就可以。.原创 2022-08-30 18:52:16 · 924 阅读 · 0 评论 -
机器学习14 线性回归代码实现(boston房价)
还有就是,这里准确度用的数据是x_test 和 y_test ,要把上面代码的score写成。注意区分,一般lr缩写表示逻辑回归,线性回归不要用这个缩写。调参(在循环里建模,字典,追加,DataFrame显示)表示不进行归一化(归约),不进行归一化可以少一步计算量。最高的,有两个都是0.668759,都可以选,在python里是关键字,不加引号。...原创 2022-08-30 17:31:20 · 831 阅读 · 0 评论 -
机器学习13 过拟合解决(lasso,岭回归),欠拟合,多元线性回归
所以这时候就用L1-lasso回归解决过拟合问题,λ越大(λ越敏感)这一坨对结果影响就越大,在不断迭代过程中,由于不断接近最低点,所以绿色的两坨都在不断的减小,而蓝色这坨里面的|Ki|是在不断增大(为了避免减小的步伐太大了,是一个。通俗理解原理:由于下山的时候步长可能过大,会出现走到第6步的时候,离最低点已经很近了但还没到最低点,这时候再走一步到第7点那个位置,发现这一步误差比上一步更大了,因此选择上一步为迭代的终点。(|Ki|),其中λ是一个自己来定的常数(正数),λ越大后面这坨小尾巴的影响效果就越大。.原创 2022-08-30 00:52:57 · 1507 阅读 · 0 评论 -
机器学习12 线性回归:梯度下降,最小二乘法,相关性corr
线性回归:1,监督算法2,y是连续的,属于回归算法(KNN是离散的y,属于分类算法)我的理解:一个人,站在山顶(红色部分),他想走到山脚(蓝色半部分),他迈出的每一步的步幅(学习率α)是相同的。那么,他往越陡的方向走,就越快到达山脚,这里“越陡”就是沿着斜率方向,而斜率就是求偏导,这也就是为啥线性回归那里误差函数前面有个1/2方便在这里抵消偏导的*2梯度下降和最小二乘法都可以求得 y=ax+b 里面的a和b链接:梯度下降算法的通俗理解。...原创 2022-08-29 21:11:52 · 664 阅读 · 0 评论 -
机器学习11 KNN调参
情况2:把测试集和训练集的划分放到了调参的循环中。调参之前把训练集和测试集准备好,只有参数在变化。情况1:调参只调了n neighbors。,同时两个数据都在变,所以结果准确性的。,由于test数据是随机抽取的,所以。结果跟参数之间的一个关系。特别说一下情况二,因为。...原创 2022-08-29 16:53:59 · 1055 阅读 · 0 评论 -
机器学习10 K最近邻(KNN)
K最近邻算法的核心思想是:如果一个样本在特征空间中的k个最相邻(最相似,距离最近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。2,算法原理:KMeans有挨个遍历各个点的距离,聚成簇,KNN没有。得到的预测数据y_p和测试数据y_test个数都一样,说明预测成功了。3,KNN结果是分类(监督类),KMeans结果是簇(非监督类)1,有没有y(监督,无监督):KNN有y,监督类算法。所谓K最近邻,就是k个最近的邻居的意思,2,y是类别类型(y是离散的)......原创 2022-08-29 15:40:14 · 431 阅读 · 0 评论 -
机器学习9 计算折线图拐点斜率的变化
可以发现这个DataFrame由于没有统一的列坐标,所以全部变到对角线上了,下一步我们就单独增设俩列变量,让它变成常见的DataFrame。发现从4-5变化量已经和上一次3-4的差很接近,变化很小了,所以从4以后这个区域都可以选(一般选4-6)现在的代码这么写也可以,单独把k和inertia提出来,对比一下两种写法。这里的第七个明显变大了,说明前一个比后一个大很多,因此,k取9-10。x和y已经得到两个list,只需要遍历到y的个数减一个。代码实现:分三个层次的成果,先展示成果,在详细拆解步骤。...原创 2022-08-29 13:31:05 · 1777 阅读 · 0 评论 -
机器学习8 KMeans和DBSCAN分别对销售数据表聚类 对比
这个前面都写过,下面是一个完整的流程,可以自己实践完整写一遍。直接看全文代码吧,DBSCAN在后半部分。原创 2022-08-29 00:13:28 · 394 阅读 · 0 评论 -
机器学习7 DBSCAN和 KMeans优势比较
DBSCAN不用,但是要事先给半径和圈内最小点个数 eps 和 min_points_运用的时候可以两个都用,在对比说明为什么选这个算法。异常点对聚类结果影响不大(KMeans影响很大)DBSCAN可以发现任意形状的簇(最大优势)样本集密度不均匀,聚类间距相差很大不适合。噪声点多的话,建议用DBSCAN。KMeans需要事先给出K,调参比KMeans复杂一点点。...原创 2022-08-26 01:42:34 · 1389 阅读 · 0 评论 -
机器学习6 DBSCAN 定义,代码,噪声点个数,调参
它将簇定义为密度相连的点组成的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类1,可以聚成任意形状的簇2,可以把噪声点排除在外,不属于任何簇(kmeans必须有一个簇)......原创 2022-08-26 01:33:22 · 2398 阅读 · 0 评论 -
机器学习5 Kmeans重点汇总和后续补充
n_clusters :K值。max_iters:迭代次数。2,小于误差平方和或者阈值。1,达到约定迭代次数。tol:总误差平方和。原创 2022-08-30 19:00:27 · 89 阅读 · 0 评论 -
机器学习4 kmeans聚类成3个簇
标记质心 cluster_centers_ 结合刚才已经求得的质心坐标,第1列(索引0)为横坐标,第2列(索引1)为纵坐标,点图plt.scatter(横坐标对应数据列,纵坐标对应数据列,颜色c=clf.labels_,标记marker=‘x’)eg:只要索引为0的第一列,表示为 [:,0],:表示行不要。注意,color用c肯定不会错,用color有时会报错。查看质心cluster_centers_查看每个点所属于的簇的标签labels_数据格式(左下)和最终结果(右上)原创 2022-08-24 13:21:05 · 1231 阅读 · 0 评论 -
机器学习3 kmeans找最优K的2种方法
思想:最终是要找簇内误差平方和inertia最小,以及对应的k,那可以先给最后得到的min_inertia赋一个很大的值,每找到一个更小的就进行替换。先给最后得到的min_inertia赋一个很大的值,k初始值为0用来储存最后得到的n_clusters。判断inertia大小,将min_inertia替换成小的,同时把此时的i赋值给k。1,用.idxmin() 返回在请求轴上第一次出现最小值的索引。可以将字典生成一个一维数组更直观 .series()注意这俩返回的索引不一样,但是对应值是一样的。原创 2022-08-24 12:07:48 · 566 阅读 · 0 评论 -
机器学习2 kmeans预习(看1.5就行)
导入包–准备数据–拟合模型。原创 2022-08-22 14:28:27 · 220 阅读 · 0 评论 -
机器学习1.5 kmeans-最优参数模型的Dataframe+提取误差平方和tol最小一行的信息+折线图
【代码】机器学习1.5 kmeans-最优参数。原创 2022-08-23 00:44:02 · 568 阅读 · 0 评论 -
机器学习1 计算准确率
python中return的作用,完善代码,方便以后复用。#三步走:定义–规则–赋值。原创 2022-08-19 22:06:58 · 377 阅读 · 1 评论 -
机器学习错误2 将DataFrame完整导出成csv文件
比如:C:\Users\DANNY\Desktop\ ----> C:/Users/DANNY/Desktop/其中2处是导出文件的名称,可以自己取,我这里是叫DataFrame导出。但是这个表是简略版的,如果需要完整查看,就需要导出成CSV文件。在写代码时,我们会用到DataFrame来更直观的观察代码。只需要改变False和True即可,需要index就把。当然在此之前,需要在第一行import所需要的各种包。其中1处是导出的位置,需要注意的是复制过来的是。...原创 2022-08-26 12:48:11 · 2951 阅读 · 0 评论 -
机器学习错误3 忘记使用fit() 导致报错`AttributeError: ‘LinearRegression‘ object has no attribute ‘coef_‘
特别提示一下:这里fit的数据是x_test 和 y_test 因为这里用的是线性回归,就关注x训练集和y训练集,之前的算法都是fit(data)就行了。调参(在循环里建模,字典,追加,DataFrame显示)一次,我这里只在外面fit()一次是不行的。我又去先运行了,构建模型这两行也还是报错。是因为这里有循环,每一次循环都需要。加了一行模型预测(拟合),就OK了。.........原创 2022-08-30 16:20:07 · 6236 阅读 · 0 评论