案例实践
Last_xuan1
这个作者很懒,什么都没留下…
展开
-
Kaggle实战:Rain in Australia 数据集建模预测
文章目录数据详情单变量分析离散值连续值建模逻辑回归模型评估随机森林随机森林调参朴素贝叶斯人工神经网络数据集来源https://www.kaggle.com/jsphyg/weather-dataset-rattle-package数据详情包含了某段时间内,每一天的天气观测值,目的是为了预测明天是否会下雨Date:The date of observationLocation:The co...原创 2019-10-01 21:31:31 · 7809 阅读 · 20 评论 -
航空公司客户价值分析
1 目的对历史客户数据进行分析,区分客户的类型,以便对客户提供更适合的服务。2 数据探索查看数据整体情况import pandas as pdpath = r'C:\Users\Liang\Desktop\Python_shujufenxiyuwajueshizhan\chapter7\demo\data\air_data.csv'data = pd.read_csv(path, e...原创 2019-08-10 15:43:44 · 910 阅读 · 0 评论 -
泰坦尼克号生存预测 数据分析+挖掘建模
数据集来源:Kaggle https://www.kaggle.com/vikichocolate/titanic-machine-learning-from-disaster数据集各字段的含义PassengerId 乘客编号Survived 是否幸存Pclass 船票等级Name 乘客姓名Sex 乘客性别SibSp 亲戚数量(兄妹、配偶数)Parch 亲戚数量(父母、子女数)T...原创 2019-07-27 12:16:50 · 4692 阅读 · 0 评论 -
特征工程_note
首先明确概念:用来训练模型的数据集越大,数据质量越好,数据模型的复杂度就越低如果特征来自于不同的文件、数据库表、csv等,就要把不同地方的数据进行规整,统一存储在一个方便以后使用的地方数据清洗数据样本抽样异常值、空值处理数据样本抽样要注意:抽样要具有代表性:样本各个特征的比例要尽量与整体的比例保持一致样本比例要平衡以及样本不平衡时要如何处理尽量考虑使用全部的数据异常值、空值(Na...原创 2019-07-23 10:47:24 · 202 阅读 · 0 评论 -
狭义数据分析3
交叉分析分析属性和属性间的关系,交叉分析的方法比较多,如可以任意取两列,用假设检验的方法,判断他们之间是否有联系,也可以直接以一个或几个属性为行,一个或几个属性为列,做成一张透视表,通过观察这张新生成的表的性质,可以更直观的分析两个属性或几个属性之间的关系import numpy as npimport pandas as pdimport scipy.stats as ssimport...原创 2019-07-22 00:19:41 · 631 阅读 · 0 评论 -
狭义数据分析2
多因子分析与复合分析探索属性和属性之间的联系,分析属性和属性之间联系的分析方法假设检验根据一定的假设条件,从样本推断总体,或者推断样本与样本之间关系。作出一个假设,然后根据数据,或者根据已知的分布性质来推断这个假设成立的概率有多大方法:建立原假设H0,H0的反命题H1(备择假设)在假设检验中,常常把这个假设和一个已知的分布关联起来,这样原假设为符合该分布,备择假设为不符合该分布选择检...原创 2019-07-22 00:11:28 · 679 阅读 · 0 评论 -
狭义数据分析1
抽样理论集中趋势:均值、中位数、分位数、众数离中趋势:标准差、方差数据分布:偏态、峰态、正态分布抽样理论:抽样误差、抽样精度均值 df.mean()计算:数字加起来除以总量作用:经常用来衡量一些连续值,尤其是分布比较规律、均匀的连续值的集中趋势。中位数 df.median()作用:衡量异常值,有一些特别大或者特别小,用中位数衡量异常值的集中趋势。众数 df.mode(...原创 2019-07-21 23:59:00 · 1190 阅读 · 0 评论