自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 【Kaggle学习笔记】 | Data Visualization

本课程的数据可视化主要用seaborn库来实现编程准备# 构造编程环境,即调用一些库import pandas as pdpd.plotting.register_matplotlib_converters()import matplotlib.pyplot as plt%matplotlib inlineimport seaborn as snsprint("Setup Complete")# 加载数据fifa_filepath = "../input/fifa.csv"# fif

2020-11-22 09:20:39 245

原创 【Kaggle学习笔记】 | Feature Engineering

有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。本期 Kaggle 课程将以 Kickstarter 项目为例进行特征工程入门知识的讲解数据观察# 加载并查看数据import pandas as pdks = pd.read_csv('../input/kickstarter-projects/ks-projects-201801.csv',

2020-08-04 15:11:16 263

原创 【Kaggle学习笔记】 | Deep Learning

卷积是深度学习的基础模块,一些重要参数的定义如下:image_size:图片大小num_classes:几分类问题,即最后结果需要分为几类pooling:池化策略loss:损失函数,用来判断梯度下降的方向metrics:评价函数,用于判断模型性能activation:激活函数的选择optimizer:梯度优化器,即选择梯度下降的策略batch_size:将数据分成的批数,模型每处理一批数据进行梯度更新epoch:模型训练几轮,即数据被喂入模型几轮Iteration:使用一个batch数据

2020-07-16 09:53:18 243

原创 【Kaggle学习笔记】 | Advanced SQL

在 Intro to SQL 中已经对SQL查询有了一定的了解,接下来继续深入了解相关知识JOINS上次说到的 INNER JOIN 只返回两个表格相匹配的数据,但有时不仅想得到两表之间匹配的数据,还希望得到其中某个表格里剩下没有匹配的行,此时就可以用 LEFT / RIGHT JOIN 或FULL JOINLEFT JOIN:返回匹配的记录以及前面表格未匹配的记录(RIGHT 则返回后面表格)FULL JOIN:返回匹配的记录以及两个表格未匹配的记录# 选择2012年1月1日发布的所有新闻,并带

2020-07-16 09:51:51 353

原创 【Kaggle学习笔记】 | Intro to SQL

BigQueryBigQuery是一个将SQL查询应用于大型数据集的网页服务from google.cloud import bigquery client = bigquery.Client() # 创建一个bigquery对象# 访问数据集步骤:# 1.用dataset()方法构造对数据集的引用(API);# 2.用get_dataset()方法得到数据集dataset_ref = client.dataset("hacker_news", project="bigquery-publi

2020-07-16 09:49:30 433

原创 【Kaggle 学习笔记】 | Intermediate Machine Learning

在Intro to Machine Learning课程的基础上讲解了如何处理丢失值、非数值数据和数据泄露的问题丢失值处理直接扔掉包含丢失值的列用平均值代替丢失值( sklearn.impute 里的 SimpleInpuer 函数)平均值代替并把所属列在原数据基础上变为新增的列来记录# 查找包含缺失值的列名cols_with_missing = [col for col in X_train.columns if X_train[col].isnu

2020-06-17 09:15:28 244

原创 【Kaggle 学习笔记】| Intro to Machine Learning

本课程从数据导入开始,开始机器学习步骤的引导基础的数据探索# 读取数据melbourne_data = pd.read_csv(melbourne_file_path) melbourne_data.describe()melbourne_data.columns # 标题目录melbourne_data = melbourne_data.dropna(axis=0) # 去除有丢失值的行构建简单的模型# 选取X和ymelbourne_features = ['Rooms', 'Bat

2020-06-09 21:17:48 246

原创 【Kaggle 学习笔记】 | Geospatial Analysis

地理空间文件格式:shapefile(最常见)、GeoJSON、KML和GPKG文件读取# Read in the datafull_data = gpd.read_file("../input/geospatial-learn-course-data/DEC_lands/DEC_lands/DEC_lands.shp")# View the first five rows of the...

2020-03-27 10:01:30 497

原创 【Kaggle 学习笔记】 | Pandas

创建,读取和保存两个结构单元DataFrame,Series# DataFramepd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']}, index=['Product A', 'Product B'])pd....

2020-03-27 09:30:49 182

原创 cs231n | Lecture 15 Efficient Methods and Hardware for Deep Learning

cs231n(2017)|Lecture 15 Efficient Methods and Hardware for Deep Learning课件相关内容:http://cs231n.stanford.edu/2017/syllabus.html概述人工智能是在数据的基础上所实现的,数据在一定程度上与模型的性能成正相关(过拟合之前),然而数据越多,也必然有随之产生的挑战:1. 模型尺寸变大...

2020-03-13 11:50:54 275

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除