自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 分析卷积神经网络图像识别过程和使用 Augmentation 解决 CNN 图像识别中的 Overfitting 问题 —— 以 Kaggle Dogs vs. Cats 为例

这篇文章通过分析Kaggle Dogs vs. Cats图像识别项目,用可视化的方法介绍了卷积神经网络 CNN 的工作逻辑,并使用Argumentation解决了由于training set数据样本量不足带来的overfitting问题。包括完整的Keras code和分析过程。修改了一下行文,增强了可读性。

2020-10-08 21:04:32 496

原创 Kaggle Competition 进阶 -- House Prices Prediction 房价预测 Part 2

Kaggle上的House Price预测项目,使用Ames, Iowa, US地区房产交易数据拟合房屋特征与交易价格的相关关系。这次添加了pipeline的特征处理方法,比较了不同特征值在Lasso模型中的重要性,使用两层的stacking方法完成了最后的模型。

2020-10-02 18:41:22 518

原创 Kaggle Competition 进阶 -- House Prices Prediction 房价预测 Part 1

Kaggle上的House Price预测项目,使用Ames, Iowa, US地区房产交易数据拟合房屋特征与交易价格的相关关系。花了点时间在比较train和cross validation拟合效果的画图上面。完整代码见Github

2020-08-29 00:23:31 986

原创 Python上的排列组合计算A(m,n), C(m,n)

排列组合 permutation A(m,n) combination C(m,n) 在 Python上的计算方法

2020-08-23 22:39:16 2059

原创 关于Kaggle入门Titanic的一次简单尝试Part 2 -- Dive into ML

接上回简单尝试中发现的几个问题,这次的文章准备做以下几个尝试:用更可靠的方法估计缺失的Age信息考虑Cabin特征希望把Fare和Ticket这两个特征值也纳入模型中更加地dive into Machine Learning

2020-07-26 18:56:35 465

原创 一点关于从economics到data science的随笔

本来今天的计划是要把接着之前一篇帖子https://blog.csdn.net/JingPNnXxx/article/details/107362261把Titanic的case做完,结果深入的了解了一下别人的帖子之后发现两者间的差距实在是太大了。我所做的只是做了个regression,而别人的才能称为machine learning,还好没加错标签。使用ML的思路去完成Titanic的case还是需要更多时间去fill the gap。就先水一下最近的想法,不小心发现已经连更三天了…说起经济中的数据分

2020-07-22 02:10:23 323

原创 使用Apriori Algorithm得到关联规则(Association Rule)-- 支持度(support),置信度(confidence),提升度(Lift)

本篇的code和data: GitHub关联规则是在data mining尤其是探究两者间相关关系的问题时经常用到的概念。举个栗子,在transaction data中我们常常需要从其中找到是不是顾客在选择一些商品时有明显的正相关性,这样我们就可以把两种商品的距离拉近以提升销量。而更直接的栗子就是当你在购物网站浏览商品时旁边的推荐。关联规则的量度有三个,支持度(support),置信度(confidence),提升度(Lift)。支持度(support)假设我们这里研究销售A商品会不会带来B商品的提

2020-07-17 21:12:10 4176

原创 关于Kaggle入门Titanic的一次简单尝试 -- 逻辑回归(Logistic Regression)

前言问题描述Titanic的问题界面在这里:https://www.kaggle.com/c/titanic首先说一下Kaggle,按简介Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals. 来说,Kaggle是通过以竞赛和奖金(部分有)的方式,为所有从事或有志从事data science的人

2020-07-16 12:09:17 1004

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除