机器学习实战
基于sklearn和tensorflow的教程
看不见我呀
坚持就是胜利
展开
-
机器学习项目清单
来源:https://zhuanlan.zhihu.com/p/34667595目录1 规范化问题:Frame the Problem and Look at the Big Picture2 获取数据:Get the Data3 探索数据:Explore the Data4 数据预处理:Prepare the Data5 列出可能的模型:Short-List Promis...转载 2019-07-02 23:10:13 · 188 阅读 · 0 评论 -
第二章 端到端的机器学习项目——最全的房价预测案例(二)
目录1.加载数据1.2分离测试集1.2数据清洗1.3处理文本和分类属性1.4自定义转换器1.5特征缩放1.6转换流水线2.选择和训练模型2.1训练和评估训练集2.2使用交叉验证集来更好的进行评估2.3微调模型2.3.1网格搜索2.3.2随机搜索2.3.3集成方法2.3.4分析最佳模型及其错误2.4通过测试集评估系统3.启动、监控和...原创 2019-07-02 22:55:24 · 312 阅读 · 0 评论 -
插播一:数据对范数的影响
机器学习指标:是要选RMSE,还是选择MAE呢。RMSE为2范数,MAE为1范数。范数越高,则越关注越大的价值,忽视小的价值。因此RMSE比MAE,对异常值更加敏感。但是,当异常值较少时,RMSE的表现会好一些。以下为我自己的测试范数。以下为只有20个数据中只有一个异常值:以下为20个数据中有10个异常值:限制到【0,400】便于观察:...原创 2019-06-28 23:38:12 · 249 阅读 · 0 评论 -
第二章 端到端的机器学习项目——最全的房价预测案例
学会了使用自动目录,这个可以美美的了。目录1.前置知识1.1使用真实数据1.2观察大局1.3框架问题1.4 选择性能指标1.5检查假设2.获取数据2.1创建工作区2.2下载数据2.3分析数据2.3.1统计学的角度分析——head/info/value_counts/describe2.3.2图形的角度分析——直方图对2.4创建测试集——引入分...原创 2019-06-28 23:09:04 · 971 阅读 · 0 评论 -
第1章 机器学习概览
第一个机器学习实例:垃圾邮件分类器。什么是机器学习:有任务,为了完成任务需要有经验和指标。经验从训练数据中获取。指标用于衡量任务完成的怎么样。为什么要使用ML:传统的算法其实是规则,很难维护。 但是机器学习,可能会揭示出人类未曾意识到的关联型,帮助我们理解问题。 引出:数据挖掘:应用机器学习技术挖掘海量数据,发现并非立见...原创 2019-06-28 01:46:21 · 202 阅读 · 0 评论 -
np.random、bgr、rgb、plt.subplot
1.np.random.choice()np.random.randnnp.random.shuffleplt.imshow图像模式的区别:plt.image.imread为RGB模式,cv为BGR模式。多列图像原创 2019-09-16 14:21:57 · 206 阅读 · 0 评论 -
项目二:人脸关键点检测
本文预测68个关键点1.观察图像2.预处理2.1构造输入数据torch.utils.data.Dataset是一个表示数据集的抽象类。这个类可以让我们加载批量的图像/关键点数据,并统一地将转换应用于我们的数据,例如,为了训练神经网络,重新缩放和归一化化图像。你的自定义数据集应继承Dataset并覆盖以下方法: __len__,从而使len(dataset)返回数据集的大...原创 2019-09-16 14:53:31 · 910 阅读 · 0 评论 -
项目五:狗品种识别
1.加载数据集,并且熟悉数据2.构造检测器2.1构造人脸检测器2.2构造狗狗检测器-resnet直接检测3.构建狗品种检测器3.1自己构建3.2使用迁移学习vgg学习3.3使用xception进行迁移学习4.测试算法...原创 2019-09-16 15:09:00 · 1302 阅读 · 0 评论 -
深度有趣(1)-风格迁移
这几天看完了张宏伦的《深度有趣》,确实很有趣。不过近期鉴于需要,仅做关于视觉的总结。1.图像风格迁移本质:以前是根据输入和损失函数,来确定权重。不过这个思路有点不一样,根据权重和损失,来确定输入。这个原理多想一下就可以理解的。(关于输入和自变量的置换。本来就是人为认定的。)连接:https://zhuanlan.zhihu.com/p/44165451模型:vgg19在im...原创 2019-09-24 22:13:50 · 266 阅读 · 0 评论 -
深度有趣(2)-自编码
自编码器:https://zhuanlan.zhihu.com/p/44165994这个应用其实很学术化,为了去燥而去燥。因为训练样本是有噪声的图像。目标样本是没有噪声的图像。试想一下,怎么去找这个图像呀???模型:编码器 + 解码器 编码器:输入有噪声的图像,最后编码为多个特征图(7*7*32); 解码器:输入为编码器的输出(7*7*32),输出为原图大小(28 * ...原创 2019-09-24 22:38:57 · 87 阅读 · 0 评论 -
深度学习(3)-变分自编码器
搞个目录目录1.原理:根据多个样本,学会生成新的样本。2.本文的案例:实现细节:encoder + decoder【学习x服从的高斯分布的均值和方差,然后在此高斯分布中随机选取一个值。】损失函数:训练:推理:额外的看看,隐变量服从高斯分布的参数的范围:思考:1.这个项目判定样本是否好区分,也就是区分任务的难易程度。2.关于loss的考虑:3.有...原创 2019-09-24 23:05:07 · 648 阅读 · 0 评论 -
深度学习(4)-生成式对抗网络
目录1.GAN和变分自编码器有共同的目的,就是根据噪声估计出样本。即生成样本。但是具体实施的思路不一致。2.GAN中主要包括两个核心网络:G + D代码细节:判别器:生成器:损失函数:优化器:训练:训练之前先计算下损失。推理一:推理二:3.延伸4.思考生成式对抗网络(GAN)https://zhuanlan.zhihu.com...原创 2019-09-24 23:35:41 · 578 阅读 · 0 评论 -
目标检测常见的框架
1.分类vgg-resnet-inception-xception-senet2.检测r-cnn系列yolo-ssd3.多尺度3.1FPN:采用resnet的策略,进行加法运算。——多尺度的做法。自底向上其实就是网络的前向过程。在前向过程中,feature map的大小在经过某些层后会改变,而在经过其他一些层的时候不会改变,作者将不改变feature map大小...原创 2019-09-25 00:11:56 · 3892 阅读 · 0 评论 -
MTCNN代码解读
原文:https://github.com/LeslieZhoa/tensorflow-MTCNN1.三个模型要按顺序训练,PNet-RNet-ONet2.训练集负样本:IOU < 0.3正样本:IOU > 0.65part 样本:0.4 < IOU < 0.65关键点位置:5个关键点位置。人脸分类:正样本 + 负样本人脸检测:正样...原创 2019-09-25 23:34:26 · 801 阅读 · 0 评论 -
随便学习python常见的两个库吧
目录1.sklearn的datasets.load_files()2.keras的to_categorical3.glob4.进度条1.sklearn的datasets.load_files()2.keras的to_categorical3.glob4.进度条原创 2019-09-15 01:54:55 · 366 阅读 · 0 评论 -
pca
以下为pca的应用聚类效果:每一个旧特征在新特征的投影:每一个旧特征在新特征的直观表示:如果采用lda方法进行分类:效果如下:<其实对于iris来说,lda更好一些。>【既然已经分开了,然后配合kmeans就可以进行分类了】还有一个案例,做lfw的人脸识别。以后再补充。...原创 2019-09-15 01:09:37 · 109 阅读 · 0 评论 -
项目一——泰坦尼克预测存活人数
这个项目的目的:预测生还的人数。最大的感悟:挖掘特征的方式。或者可以理解为:分析数据的方式。文章的具体思路:1.不考虑任何特征,直接预测全部生还时,模型的准确率为:60%2.不考虑任何特征,直接预测全部死亡时,模型的准确率为:61.62%3.考虑单一特征:通过分析数据,可以发现,生还的人数中,女性的比例比较大,因此,直接构建模型:女性全部生还,此时的准确率为:78.68...原创 2019-09-12 23:40:01 · 185 阅读 · 0 评论 -
plt.bar
网址:https://blog.csdn.net/qq_29721419/article/details/71638912以下分别为:1.修改颜色2.堆叠绘制3.并列绘制4.横状绘制...转载 2019-09-13 00:06:17 · 6514 阅读 · 0 评论 -
sklearn.model_selection
目录一、进行归一化二、交叉验证实例一:花花类别判别实例二:糖尿病的指数回归三、机器学习中的各种得分指标1.accuracy2.confusion_matrix3.classification_report4.hamming_loss5.jaccard_similarity四、分离样本集1.train_test_split2.shufflespli...原创 2019-09-13 18:01:01 · 589 阅读 · 0 评论 -
项目二:房价预测
目标:根据一些属性,预测波士顿的房价关键步骤:1.分析数据1.1观察数据的类型,是否有字符串型数据、是否有缺失值、数据范围是否合理。2.数据预处理(清洗数据)2.1正确性:有没有异常值2.2完整性:是否有缺失值在本例中,我们使用以下两种方法,一是丢弃数据,即选择丢弃过多空数据的特征(或者直接丢弃数据行,前提是NA数据占比不多),二是填补数据,填补的方法也很多...原创 2019-09-13 18:31:24 · 328 阅读 · 0 评论 -
特征编码dummy
目录1.字符编码二、伯努利编码-01二值化三、类别编码四、构造特征值-多项式方法五、定制转换器有好几种特征编码的方式:1.字符编码二、伯努利编码-01二值化三、类别编码四、构造特征值-多项式方法五、定制转换器...原创 2019-09-14 01:08:58 · 708 阅读 · 0 评论 -
plt.hist-双重直方图
hist绘制的是频次原创 2019-09-14 01:11:44 · 2710 阅读 · 1 评论 -
项目三-寻找年收入大于50w的富豪(完整)
目录1.探索数据1.1了解数据(各个特征的含义)2.清洗数据-准确、完整2.1特征转换——转换倾斜的连续特征2.2特征归一化2.3独热编码——字符特征和离散数字特征2.4切分数据3.模型的评价指标4.建模4.1基准模型4.2模型的选择-依据:应用场景、模型的优劣势、是否适合本文的问题模型1模型2模型34.3创建一个训练和预测的流水线;——...原创 2019-09-14 01:40:30 · 381 阅读 · 0 评论 -
sns.relplot
介绍采用sns的强大的绘图。可以绘制不止二维的信息。【优美的排版】用散点图关联变量用线强调连续性聚合和表示不确定性用语义映射绘制数据子集显示与facet的多个关系...原创 2019-09-14 23:15:09 · 2845 阅读 · 0 评论 -
项目四:创建用户分类-无监督学习
目录1.分析数据——理解:每一个特征和其他特征之间的联系。1.1特征相关性1.2可视化特征分布2.数据预处理2.1特征变换2.2异常值检测3.降为特征4.聚类5.数据恢复6.引申——构建新特征7.讨论:本文介绍一个无监督学习的历程。项目背景:你将分析一个数据集的内在结构,这个数据集包含很多客户真对不同类型产品的年度采购额(用金额表示)项目任务...原创 2019-09-15 01:03:37 · 554 阅读 · 0 评论 -
MTCNN 代码解读 (2)Pnet
Pnet主要的难点是:如何根据heatmap来提取候选框?详见下文:https://zhuanlan.zhihu.com/p/31913064Pnet为全卷积网络。训练的时候,使用的是二分类网络。但是由于是全卷机网络,在推理时不一样:输入为12*12*3的图像,输出为heatmap。然后根据heatamp提取候选框,然后采NMS来选取可能性最大的目标框。1.【原始...原创 2019-09-27 00:45:09 · 455 阅读 · 0 评论