![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习、数据分析与挖掘
文章平均质量分 91
Eric_zh69
Change in all things is sweet
展开
-
数据分析与挖掘入门练习1——kaggle比赛_Titanic: Machine Learning from Disaster
目录0 摘要1 导入包与加载数据2 数据可视化分析3 特征工程4 LR初步建模与结果5 优化方法---重新进行特征工程 选特征、 模型融合6 总结 0.摘要最近利用两周多的时间准备做了一下kaggle上的第一个热门比赛,链接为Kaggle的Titanic幸存预测。这是一个基本的二分类问题,下面就这一分类问题竞赛的处理思路及代码实现,包括探索性数据分...原创 2018-07-04 20:53:18 · 819 阅读 · 0 评论 -
Bagging和Boosting的区别(面试准备)
Baggging 和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。 Bagging:先介绍Bagging方法:Bagging即套袋法,其算法过程如下: 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都...原创 2018-09-14 11:26:24 · 845 阅读 · 0 评论 -
聚类的性能度量以及常见的聚类类型
“聚类”(clustering)算法是“无监督学习”算法中研究最多、应用最广的算法,它试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)因为聚类是在未标注样本上的分类算法,所以不像之前我们介绍的其它算法一样,我们可以直观的知道训练出来的模型的好坏,即我们不能通过比对测试样本的预测结果和真实预测结果误差值来近似泛化误差。一 、 聚类结果好坏的评估指标...原创 2018-08-23 11:08:55 · 7484 阅读 · 1 评论 -
机器学习中最常用的优化算法总结
1. 梯度下降法(Gradient Descent) 2. 牛顿法和拟牛顿法(Newton's method & Quasi-Newton Methods) 3. 共轭梯度法(Conjugate Gradient) 4. 启发式优化方法 5. 解决约束优化问题——拉格朗日乘数法 我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业和个人都要考虑的一个问...转载 2018-08-16 16:44:03 · 859 阅读 · 0 评论 -
机器学习 数据特征分析------特征工程
目录1 特征工程是什么?2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化与归一化的区别2.2 对定量特征二值化2.3 对定性特征哑编码2.4 缺失值计算2.5 数据变换2.6 回顾3 特征选择3.1 Filter3.1.1 方差选择法3.1.2 相关系数法3.1.3 卡方检验3.1.4...转载 2018-08-02 22:16:59 · 2229 阅读 · 0 评论 -
特征工程——特征转换
一、连续型变量 1.1 连续变量无量纲化 1.2 连续变量数据变换 1.3 连续变量离散化 二、类别变量编码 三、时间型、日期型变量转换 四、 缺失值处理 五、 特征组合 一、连续型变量1.1 连续变量无量纲化 无量纲化: 使不同规格尺度的数据转化统一规格尺度(将数据单位...转载 2018-08-01 22:22:52 · 787 阅读 · 0 评论 -
数据分析之数据分类了解
一、分类数据分类数据代表着对象的属性特点。诸如人群的性别、语言、国籍大都属于分类数据。分类数据通常也可以用数值表示(例如1表示女性而0表示男性),但需要注意的是这一数值并没有数学上的意义仅仅是分类的标记而已。1、定类数据是指没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。如性别变量中的男、女取值,可以分别用1、 2表示,民族变量中的各个民族,可以用‘汉’‘回’‘满’等字符表...原创 2018-07-27 21:47:18 · 17640 阅读 · 0 评论 -
机器学习Python--数据处理分析一些方法总结
删除数据 #行删除train = train.drop(train[(train['GrLivArea']>4000)].index)#列删除train.drop("Id", axis = 1, inplace = True) 连接数据 #并重设索引,列相同all_data = pd.concat((train, test)).reset_index(d...原创 2018-07-31 20:17:47 · 2000 阅读 · 1 评论 -
结合Scikit-learn介绍几种常用的特征选择方法
文章链接:https://blog.csdn.net/Bryan__/article/details/51607215特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合 增强对特征和特征值之间...转载 2018-08-03 21:15:17 · 287 阅读 · 0 评论 -
机器学习 集成学习的结合策略之stacking学习法
机器学习模型优化之模型融合https://blog.csdn.net/u014248127/article/details/78993753 模型融合的结合策略: 基本学习器学习完后,需要将各个模型进行融合,常见的策略有:1,平均法: 平均法有一般的评价和加权平均,这个好理解。对于平均法来说一般用于回归预测模型中,在Boosting系列融合模型中,一般采用的是加权平均融合。2,投票...原创 2018-08-03 16:19:41 · 4172 阅读 · 3 评论 -
数据分析与挖掘练习2 --kaggle比赛 House Prices 预测
题目描述: 通过79个变量(几乎)描述爱荷华州埃姆斯(Ames)住宅的每一个特征,在这个竞赛里,需要你预测每个住宅的最终价格,并最终提交。http://ww2.amstat.org/publications/jse/v19n3/Decock/DataDocumentation.txt 上述官方给的一份说明里是对数据的描述,描述了79个属性变量的具体描述以及数据类型。The data has...原创 2018-07-29 22:27:32 · 1541 阅读 · 0 评论 -
scikit-learn(工程中用的相对较多的模型介绍):1.11. Ensemble methods
文章链接:https://blog.csdn.net/mmc2015/article/details/47271195转载 2018-07-29 20:35:41 · 146 阅读 · 0 评论 -
机器学习练习题选
91.模式识别中,马式距离较之于欧式距离的优点是(C、D)。A.平移不变性; B.旋转不变性; C尺度不变性; D.考虑了模式的分布 92.影响基本K-均值算法的主要因素有(ABD)。A.样本输入顺序;B.模式相似性测度;C.聚类准则;D.初始类中心的选取 93.在统计模式分类问题中,当先验概率未知时,可以使用(BD)。A. 最小损失准则; B. 最小最大损失准则;...原创 2018-10-02 14:30:14 · 1111 阅读 · 0 评论