![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
kaggle
qq_18884827
这个作者很懒,什么都没留下…
展开
-
kaggle入门笔记(Day4:Character encodings)
导包# modules we'll useimport pandas as pdimport numpy as np# helpful character encoding moduleimport chardet# set seed for reproducibilitynp.random.seed(0) UTF-8是标准字符编码,所有的python编码都是UTF-8编码,但是你...原创 2018-04-07 21:56:29 · 204 阅读 · 0 评论 -
kaggle入门笔记(Day5:Inconsistent Data Entry)(数据输入不一致问题)
简单的说就是输入的数据可能本来是一个东西,但是由于字母大小不一致,或者多个空格,或者由于输入问题,或者表达问题, 导致一个单词有相似的表达方法,致统计出来的数据是多个。所以这节课主要是解决这类问题1、Get our environment set up# modules we'll useimport pandas as pdimport numpy as np# helpful mod...原创 2018-04-08 12:01:30 · 614 阅读 · 0 评论 -
kaggle入门笔记(Day1:Handling missing values)
最近想玩kaggel比赛来着,但是注册后无从下手。幸运的是kaggle给我推送了五天的练习题,我做了一下笔记,本人是小菜,如果有那个地方有问题,还希望大家多多指正。附上网址:https://www.kaggle.com/rtatman/data-cleaning-challenge-handling-missing-values?utm_medium=email&utm_source=ma...原创 2018-04-02 15:34:15 · 634 阅读 · 0 评论 -
kaggle入门笔记(Day2:Scaling and normalization)
介绍本部分内容之前,先说一下Scaling与normalization的区别一、Scale包括两部分:Standardization(标准化)和Centering(归一化) 1、Standardization: newX = (X- 均值) / 标准差(standard deviation), newX 的均值=0,方差= 1,可用于发现离群点,Python中计算函数为pr...原创 2018-04-05 21:37:25 · 1251 阅读 · 0 评论 -
kaggle入门笔记(Day3:Parsing Dates)
今天的内容是解析数据,内容比较简单,几句话可以概括。拿到数据之后先判断数据类型(一般都是string类型),然后把string的数据类型转换为相应的形式,比如日期,需要转换为日期的类型,因为如果你想拿到这个日期类型的天,总不能用string类一点点的截取,如果已经转换为datetime类型,可以 使用数据.dt.day来获取到天数。最后通过画图,来查看自己转换的数据是否正确具体步骤1、导入数据# ...原创 2018-04-06 17:27:27 · 263 阅读 · 0 评论