自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Task05:数据建模及模型评估

模型搭建切割训练集和测试集from sklearn.model_selection import train_test_split# 一般先取出X和y后再切割,有些情况会使用到未切割的,这时候X和y就可以用X = datay = train['Survived']X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)模型创建from sklearn.linear_model i

2020-08-28 18:40:28 111

原创 Task03:基于支持向量机的分类预测(3天)

线性可分支持向量机与硬间间隔最大化SVM是什么支持向量机(Support Vector Machine,SVM)是一个非常优雅的算法,具有非常完善的数学理论,常用于数据分类,也可以用于数据的回归预测中,由于其优美的理论保证和利用核函数对于线性不可分问题的处理技巧, 在上世纪90年代左右,SVM曾红极一时。DemoStep1:库函数导入Step2:构建数据集并进行模型训练Step3:模型参数查看Step4:模型预测Step5:模型可视化1:库函数导入## 基础函数库import nump

2020-08-26 19:51:23 148 1

原创 Task04:数据可视化(2天)

数据可视化# 加载所需的库# 如果出现 ModuleNotFoundError: No module named 'xxxx'# 你只需要在终端/cmd下 pip install xxxx 即可%matplotlib inlineimport numpy as npimport pandas as pdimport matplotlib.pyplot as plttext = pd.read_csv(r'result.csv')text.head()可视化展示泰坦尼克号数据集中男女中生存

2020-08-25 19:42:17 112

原创 Task02:基于决策树的分类预测(2天)

1.什么是决策树?决策树是一种非常基础又常见的机器学习模型。一棵决策树(Decision Tree)是一个树结构(可以是二叉树或非二叉树),每个非叶节点对应一个特征,该节点的每个分支代表这个特征的一个取值,而每个叶节点存放一个类别或一个回归函数。使用决策树进行决策的过程就是从根节点开始,提取出待分类项中相应的特征,按照其值选择输出分支,依次向下,直到到达叶子节点,将叶子节点存放的类别或者回归函数的运算结果作为输出(决策)结果。决策树的决策过程非常直观,容易被人理解,而且运算量相对小。它在机器学习当中非常重

2020-08-23 18:25:23 131

原创 动手学数据分析 Task02

本次学习内容主要涉及利用一些方法如concat方法进行数据合并以及利用groupby进行分组统计,关于concat等合并方法在《利用Python进行数据分析(第二版)》中已做详细说明,其中的学习注释便不再搬运到此处,至于groupby函数的基本使用,与SQL语句中的groupby类似,不再赘述。本次博文仅贴写一些代码。## 导入基本库import pandas as pdimport numpy as np## 数据加载text = pd.read_csv("data/train-left-up.

2020-08-23 18:19:08 211

原创 数据分析:Task2-数据清洗及特征处理

1.重复值,df.duplicated()drop_duplicates,删除整行重复值2.连续型变量离散化(分箱)1.将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示df["box"] = pd.cut(df["年龄"],5,labels=["1","2","3","4","5"])2.#将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示df['AgeBand'] = pd.cut(df[

2020-08-21 19:23:36 131

原创 Task01:基于逻辑回归的分类预测

逻辑回归模型的优劣势:优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;缺点:容易欠拟合,分类精度可能不高Demo 实践## 基础函数库 import numpy as np ## 导入画图库 import matplotlib.pyplot as plt import seaborn as sns## 导入逻辑回归模型函数 from sklearn.linear_model import LogisticRegression##Demo演示LogisticRegr

2020-08-20 18:06:19 164

原创 2020-08-20

#基于逻辑回归的分类预测逻辑回归模型的优劣势:1.优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;2.缺点:容易欠拟合,分类精度可能不高##1.Demo 实践、、、##基础函数库import numpy as np##导入画图库import matplotlib.pyplot as pltimport seaborn as sns##导入逻辑回归模型函数from sklearn.linear_model import LogisticRegression...

2020-08-20 17:41:20 105

原创 数据加载及探索性数据分析

第二期组队学习开始啦,这次在python基础上报名了动手数据分析,加油呀!希望在产出上相较第一期有一些进步~学习内容概括从数据的导入到观察数据特征到筛选特定目标数据,包括删除列显示特定位置的数据结果,获得数据的基本统计信息等等。第一次的task难度不高,如果能附上数据可视化的话,会使得基本统计数据更直观。程序和结果import numpy as npimport pandas as pddf = pd.read_csv(‘D:\pythondata\train.csv’)df.head(3)ch

2020-08-19 21:07:07 270

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除