- 博客(6)
- 资源 (3)
- 收藏
- 关注
原创 决策树算法实现(ID3分类树)
此处为ID3决策树,C4.5和cart决策树只要把对比的量更改即可import numpy as npimport pandas as pdfrom pandas import DataFrame, Seriesdata = {'no surfacing': [1, 1, 1, 0, 0], 'flippers': [1, 1, 0, 1, 1], 'fi...
2019-07-30 09:47:16 592
原创 泰坦尼克号生存预测 数据分析+挖掘建模
数据集来源:Kaggle https://www.kaggle.com/vikichocolate/titanic-machine-learning-from-disaster数据集各字段的含义PassengerId 乘客编号Survived 是否幸存Pclass 船票等级Name 乘客姓名Sex 乘客性别SibSp 亲戚数量(兄妹、配偶数)Parch 亲戚数量(父母、子女数)T...
2019-07-27 12:16:50 4665
原创 特征工程_note
首先明确概念:用来训练模型的数据集越大,数据质量越好,数据模型的复杂度就越低如果特征来自于不同的文件、数据库表、csv等,就要把不同地方的数据进行规整,统一存储在一个方便以后使用的地方数据清洗数据样本抽样异常值、空值处理数据样本抽样要注意:抽样要具有代表性:样本各个特征的比例要尽量与整体的比例保持一致样本比例要平衡以及样本不平衡时要如何处理尽量考虑使用全部的数据异常值、空值(Na...
2019-07-23 10:47:24 192
原创 狭义数据分析3
交叉分析分析属性和属性间的关系,交叉分析的方法比较多,如可以任意取两列,用假设检验的方法,判断他们之间是否有联系,也可以直接以一个或几个属性为行,一个或几个属性为列,做成一张透视表,通过观察这张新生成的表的性质,可以更直观的分析两个属性或几个属性之间的关系import numpy as npimport pandas as pdimport scipy.stats as ssimport...
2019-07-22 00:19:41 625
原创 狭义数据分析2
多因子分析与复合分析探索属性和属性之间的联系,分析属性和属性之间联系的分析方法假设检验根据一定的假设条件,从样本推断总体,或者推断样本与样本之间关系。作出一个假设,然后根据数据,或者根据已知的分布性质来推断这个假设成立的概率有多大方法:建立原假设H0,H0的反命题H1(备择假设)在假设检验中,常常把这个假设和一个已知的分布关联起来,这样原假设为符合该分布,备择假设为不符合该分布选择检...
2019-07-22 00:11:28 670
原创 狭义数据分析1
抽样理论集中趋势:均值、中位数、分位数、众数离中趋势:标准差、方差数据分布:偏态、峰态、正态分布抽样理论:抽样误差、抽样精度均值 df.mean()计算:数字加起来除以总量作用:经常用来衡量一些连续值,尤其是分布比较规律、均匀的连续值的集中趋势。中位数 df.median()作用:衡量异常值,有一些特别大或者特别小,用中位数衡量异常值的集中趋势。众数 df.mode(...
2019-07-21 23:59:00 1177
zzulioj 1296 a/b+c/d
2018-11-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人