机器学习实战
文章平均质量分 86
代码魔法师!
这里只是用来记笔记方便,无意讨好读者,有价值的文章会设置粉丝可见和付费专区,不喜勿看
展开
-
计算机视觉 | 人工智能 自己总结 (下)
在该示例代码中,我们首先加载 Haar 级联分类器目标检测和跟踪是计算机视觉中的重要应用,其可以识别图像或视频中的目标,并对其进行跟踪和定位。其中,目标检测通常被定义为在图像或视频中检测出特定类别的目标,而目标跟踪则是在一个视频序列中跟踪一个物体的位置。跟踪算法则是基于目标检测结果的基础上,追踪物体在图像或视频中的位置,使得在物体移动或者遮挡的情况下,依然能够准确地追踪物体。目标检测可以被视为一种分类问题,它的任务是在图像或视频中检测出特定类别的物体,并用边框框定它们的位置。原创 2023-04-24 19:53:28 · 1231 阅读 · 0 评论 -
kaggle竞赛 | 计算机视觉 | 数字图像基础操作
其中光谱色所占的比例越大,颜色越接近光谱色,颜色的饱和度也就越高。饱和度高,颜色就越深越艳。RGB 颜色空间利用三个颜色分量的线性组合来表示颜色,任何颜色都与这三个分量有关,而且这三个分量是高度相关的,所以连续变换颜色时并不直观,想对图像的颜色进行调整需要更改这三个分量才行。明度表示颜色明亮的程度,对于光源色,明度值与发光体的亮度有关;RGB 是我们接触最多的颜色空间,由三个通道表示一幅图像,分别为红色®,绿色(G)和蓝色(B)。从红色开始安逆时针方向计算,红色为0度,绿色为120度,蓝色为240度。原创 2023-01-25 10:47:57 · 862 阅读 · 0 评论 -
kaggle竞赛 | Quora Insincere Question | 文本情感分析
之前发布了一遍实战类的情感分析的文章,包括微博爬虫,数据分析,相关模型。原创 2023-01-20 21:19:58 · 1521 阅读 · 2 评论 -
kaggle竞赛 | Quora Question Pairs | 判断相似的Question
不懂请看代码比赛链接:(数据集下载)原创 2023-01-19 22:16:23 · 666 阅读 · 1 评论 -
kaggle竞赛 | Instant Gratification
kaggle比赛链接:https://www.kaggle.com/competitions/instant-gratification/data查看所有列名,以及对应的列名(nunique()方法)返回不同值的个数可以看到这一列的不同值的个数是512个查看wheezy-copper-turtle-magic固定的情况下,其他字段的分布情况基本均满足正太分布,很规范的数据集训练一个逻辑回归模型结果基本是瞎猜的准确率(0.5)考虑到wheezy-copper-turtle-m原创 2023-01-16 17:55:46 · 581 阅读 · 0 评论 -
kaggle平台学习复习笔记 | 特征工程
特征工程决定了模型精度的上限。特征工程是数据挖掘的主要工作内容:数据清洗、数据预处理、数据转换。特征工程大概占据了60%-70%的时间。原创 2023-01-13 21:14:22 · 561 阅读 · 0 评论 -
kaggle平台学习复习笔记 | 数据划分与模型集成
可以看到,第一种划分不均匀,当添加参数stratify=Y时,可以看到数据均被转换为合理的数值格式,供模型训练使用。sklearn中封装的一系列的数据划分的代码。(24, 35) 是 Young Adult。在将新的特征拼接到训练集上,进行新的学习。(12, 18) 是 Teenager。(18, 24) 是 Student。在第一次学习的基础上生成新的特征,类似的查看其他字段和幸存率的关系。不均匀的分布方式 KFold。(5, 12) 是 Child。理想情况下AUC接近0.5。原创 2023-01-12 20:54:52 · 611 阅读 · 0 评论 -
文章第二章练习题 | mnist数据集 | 泰坦尼克号数据集 | 图像增强
三个练习题1. 为mnist数据集创建一个分类器,并在测试集上达成超过97%的准确率2. 图像增强,对图片进行一些处理,提高mnist识别率3. 泰坦尼克号数据集,生存率预测1. 为mnist数据集创建一个分类器,并在测试集上达成超过97%的准确率关于mnist数据集的详细描述,请看本专栏第二章,一般学过机器学习和深度学习的都对这个数据集很熟悉我们已知的knn_clf 这个分类器有很多的超参数,我们用网格搜索进行最佳超参数的查找,然后将最好结果的模型进行数据集的验证测试。# 1. 为mnist数据集原创 2021-08-29 20:34:31 · 535 阅读 · 1 评论 -
第一章 | 加州房价数据集 | 端到端的机器学习 | 回归问题 | tensorflow2.6+sklearn | 学习笔记
目录1. 实验目标2. 数据集展示3. 设计系统4. 探索数据1. 实验目标选择加州房价数据集,基于1990年加州人口普查的数据,出于教学的目的,添加了一个分类属性,并且移除了一些特征。模型需要从这个数据中学习,从而能够根据所有其他指标,预测任意区域的房价中位数2. 数据集展示housing.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 20640 entries, 0 to 20639Data columns (原创 2021-08-27 13:36:55 · 9649 阅读 · 5 评论 -
第二章 | 分类问题 | F1-score | ROC曲线 | 精准率召回率 | tensorflow2.6+sklearn | 学习笔记
目录1. 学习目标2. 数据集介绍3. 二元分类器3.1 加载数据3.2 建立随机梯度下降(SGD)模型1. 学习目标本章以mnist数据集为例,研究二元分类器多元分类器精准率,召回率F1_scoreROC曲线2. 数据集介绍很普通的入门级数据集——mnist手写数字识别看看其中的一张图片# 展示图片def plot_digit(data): image = data.reshape(28, 28) plt.imshow(image, cmap = mpl.cm.原创 2021-08-28 21:06:19 · 2670 阅读 · 3 评论