自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 机器学习--决策树及泰坦尼克号生存预测

决策树是一个类似于流程图的树结构,分支节点表示对一个特征进行测试,根据测试结果进行分类,树叶节点代表一个类别。要判断从哪个特征进行分裂,就要对信息进行量化,量化的方式有:ID3: 信息增益条件熵:其中pi=P(X=xi),X,Y代表了两个事件,而它们之间有时有联系的(也就是联合概率分布),条件熵H(Y|X)代表了在一直随机变量X的情况下,Y的不确定性的大小。信息增益:熵H(...

2018-09-27 16:03:44 2710 1

原创 机器学习--逻辑回归及乳腺癌预测

逻辑回归算法是用来解决分类问题的算法。逻辑回归二元分类算法原理参考:http://blog.kamidox.com/logistic-regression.html逻辑回归模型由sklearn.linear_model.LogisticRegression实现实例:乳腺癌预测a. 模型训练# 加载自带乳腺癌数据集from sklearn.datasets import lo...

2018-09-26 13:04:05 4545 1

原创 机器学习--线性回归算法预测房价

算法原理:线性回归算法、最小均方差、梯度下降算法参考:http://blog.kamidox.com/gradient-descent.html里面非常详细地介绍了微积分基本运算法则、线性回归算法、梯度下降算法及改进。a. 用线性回归方法拟合正弦函数%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as n...

2018-09-25 11:33:59 9630

原创 机器学习--k近邻算法探索及糖尿病预测

算法原理:未标记样本类别由距离其最近的k个邻居投票决定。计算待标记的样本和数据集中每个样本的距离,取距离最近的k个样本,待标记样本所属类别由这k个距离最近的样本投票产生。优点:KNN原理简单,容易实现,结果精度高,无需估计参数,无需训练模型,可用于分类(投票)和回归(平均值),对异常值和噪声有较高的容忍度; 不足:当样本容量不平衡时,可能导致需预测的样本中大容量类的样本占多数;可解释性差;计...

2018-09-22 14:03:46 6584 5

原创 代价函数学习曲线

以线性回归多项式为例,探索代价函数与训练数据集大小的关系。%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npn_dots = 200# 创建数据集y=sqrt(x)X=np.linspace(0,1,n_dots)y=np.sqrt(X)+0.2*np.random.rand(n_dots)-0...

2018-09-20 14:59:22 762

原创 泰坦尼克号生存预测(三)-- 预测模型

持续更新中。。。7. 预测模型首先将train分为训练集和测试集:# 将目标变量和特征分开X_train = train.drop('Survived',axis=1)y_train = train['Survived']# 将train分为训练集和测试集# 用sklearn.model_selection 里的train_test_splitimport sklearn...

2018-09-18 00:21:45 3200 1

原创 泰坦尼克号生存预测(二)-- 特征分析

5. 特征再分析对处理过的数据再分析train[['Survived','Pclass','Sex','Age_level','Fare_log','Embarked','Familysize','isAlone','Has_Cabin','Title']].groupby('Survived',as_index=False).mean()  Survived Pclas...

2018-09-14 08:32:28 2585

原创 泰坦尼克号生存预测(一)-- 数据处理

项目及数据集来自Kaggle。持续更新中......1. 提出问题建立模型预测乘客是否生还。2. 理解数据数据特征含义:survival为目标变量,其他为特征。Variable Definition Key survival Survival 0 = No, 1 = Yes pclass Ticket class 1 = 1st,...

2018-09-10 23:59:58 5223 1

原创 Python药店销售数据分析

分析目标:根据药店销售数据,分析药品销售关键指标,以及药品销售趋势1. 导入并清理数据import pandas as pd# 以object形式输入数据可保持数据原始形状,之后可用astype()转换数据格式sale_data=pd.read_excel('药店2018年销售数据.xlsx',0,dtype='object')# 1. 列名重置:更改购药时间为销售时间...

2018-09-04 01:38:42 9255 8

原创 股票数据分析

从雅虎财经上下载6家公司股票信息,并进行分析。1. 获取数据pandas_datareader.data.DataReader支持包括雅虎、谷歌在内的十数种数据来源,本篇笔记只关注来源为雅虎财经的数据。注意:直接使用pandas_datareader.data.get_data_yahoo会出现ImmediateDeprecationError,原因是Yahoo! Finance已经不...

2018-09-03 01:21:14 15456 5

原创 python实现房价预测(一)

这是一个预测房价的项目,项目来自kaggle的housing。项目的目的是预测房价,需要从众多可能的影响因子中挑选出最能预测房价的因子来建立模型,用于预测房价。分析步骤:1.  理解项目目的,再围绕目的进行分析。本项目的目的根据数据预测房价;2. 了解数据的分布特征,根据实际项目理解每列数据的意义。在数据分析时,最重要的是要熟悉业务,在业务基础上再分析,事半功倍;3. 挑选特征...

2018-09-01 23:01:04 63416 11

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除