数据分析
文章平均质量分 92
略。
monkey_susu
hello,world~
展开
-
数据预处理-样本分布(正态分布、偏态分布)
数据预处理-样本分布(正态分布、偏态分布)转载自:https://blog.csdn.net/lanchunhui/article/details/53239441https://www.cnblogs.com/gczr/p/6802998.html一、何为数据的偏态分布? 频数分布有正态分布和偏态分布之分。正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。 偏态分布是指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏转载 2022-03-10 18:11:36 · 4242 阅读 · 0 评论 -
爬虫+数据分析:电影-南方车站的聚会
原文链接:https://blog.csdn.net/fei347795790/article/details/103643655《南方车站的聚会》由刁亦男执导,主要演员包括:胡歌、桂纶镁、廖凡、万茜等,该片于 2019 年 5 月 18 在戛纳电影节首映,2019 年 12 月 6 日在中国正式上映。故事灵感来自真实新闻事件,主要讲述盗窃团伙头目周泽农(胡歌饰),在重金悬赏下走上逃亡之路,...转载 2020-04-07 17:27:10 · 414 阅读 · 0 评论 -
数据分析--数据清洗详解流程
无论是做机器学习还是做数据分析,都离不开获取数据后的第一步-数据清洗工作。据统计,数据清洗工作占据整个工作时间百分之50左右,有的甚至能达到百分之70。下面我将介绍我进行数据清洗得思路流程。数据清洗整体流程脑图(不断更新中…)数据准备本次数据清洗工作我们使用得数据是一个借贷机构开放的用户数据(仅用于个人练习),由于源数据量有将近30万,考虑到运行速度,这里例子从这30万中随机抽取1万条...转载 2020-03-31 11:51:54 · 8081 阅读 · 0 评论 -
数据分析-豆瓣电影Top250
豆瓣Top250电影python数据分析使用python爬虫获取豆瓣电影数据清洗和处理数据使用方差、皮尔斯相关系数分析,plot进行数据可视化分析python爬虫爬取豆瓣电影数据首先,我们百度搜索豆瓣电影250,排名第一的就是我们想要的,点击进去。下面分别是首页和详细页由于我们需要爬去所有有价值的数据,所以,我们要进入每一个详情页进行数据提取,下面是我打算获取的数据:导演...转载 2020-03-31 11:44:40 · 7736 阅读 · 4 评论 -
数据分析-相关分析
概念在现实中,事物与事物之间或多或少存在一定的关系,数据之间也不例外,数据与数据之间关系往往提醒安于互相依存的关系,而相关分析主要就是分析两个变量之间的相互影响程度,在数据分析中,相关分析就是度量的是两个连续型变量之间的相关型。常见的的度量指标如下:皮尔森相关系数Pearson斯皮尔曼相关系数Spearman相关型越强,说明两个变量之间的影响程度越大,反之越小。相关系数等于-1...转载 2020-03-31 11:28:48 · 1029 阅读 · 0 评论 -
数据分析--卡方分析与方差分析
python统计分析-卡方分析和方差分析卡方检验卡方检验主要是检验两个分类变量之间的关系,主要检验是否相关,不能表示强弱。 两个分类变量,其中有一个必须是二分类,不能都是多分类。下面代码实践,使用的是泰坦尼克号人员信息的数据。分析船舱等级与存活是否存在关系:titanic.csv数据下载import pandas as pdfrom scipy import ...转载 2020-03-31 11:20:15 · 2829 阅读 · 0 评论 -
python数据分析--假设检验
原文链接:https://blog.csdn.net/lzx159951/article/details/104432582 假设检验一、假设概念假设总体均值为μ,那么实际抽样的均值离μ越近意味着假设越合理,相反,实际抽样均值离μ越远意味着假设越不合理。其中,实际抽样结果与假设的差异“程度”可以用概率值表示,概率值越大意味着越无差异。在实际中往往认为...转载 2020-03-31 11:13:12 · 319 阅读 · 0 评论 -
数据分析---逾期用户画像及不良贷款SQL分析
原文链接:https://blog.csdn.net/nianqi110/article/details/89839288 ...转载 2020-03-27 11:40:14 · 4739 阅读 · 0 评论 -
数据分析--探索用户行为模式
原文链接:https://blog.csdn.net/weixin_43797885/article/details/104724225 针对某电商平台对用户消费行为进行分析项目背景分析...转载 2020-03-26 20:07:51 · 510 阅读 · 0 评论 -
Kaggle数据挖掘竞赛冠军及优胜者代码
原文:http://www.chioka.in/kaggle-competition-solutions/ We learn more from code, and fro...转载 2020-03-21 12:48:06 · 525 阅读 · 0 评论 -
Pandas中map,apply,applymap的区别
1.map()方法:map()是Series对象的方法,DataFrame中没有map(),功能是将一个自定义函数作用于Series对象的每个元素,使用map可以实现元素级转换以及其他数据清理工作。(1).字典映射import pandas as pdfrom pandas import Series, DataFramedata = DataFrame({'food':['baco...原创 2020-03-12 10:41:55 · 680 阅读 · 0 评论 -
用Seaborn轻松的进行数据可视化
数据集下载链接:import seaborn as snsimport matplotlib as mplimport matplotlib.pyplot as pltimport numpy as npimport pandas as pd%matplotlib inlinedef sinplot(flip=1): x = np.linspace(0,14,100)...原创 2020-03-14 11:19:15 · 5996 阅读 · 5 评论 -
机器学习-天池新人赛(离线赛)--初步数据分析
import numpy as npimport pandas as pdimport mathfrom sklearn.metrics import f1_scoreidx = pd.IndexSlice%matplotlib inline# 2. 获取数据actions = pd.read_csv("./fresh_comp_offline/tianchi_fresh_com...原创 2020-03-18 22:35:46 · 780 阅读 · 0 评论 -
数据分析--缺失值填充的几种方法
常见的缺失值填充方法有填充默认值、均值、众数、KNN填充、以及把缺失值作为新的label通过模型来预测等方式,为了介绍这几种填充方法的使用以及填充效果,本文将在真实数据集上进行简单比较。1 数据集介绍:数据集来源于 天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测。该数据集共有1000条数据,特征共83维,加上id和label共85列,每维特征缺失数量范围为0~911。为了简单比较各种填充方...转载 2020-03-18 16:57:09 · 24363 阅读 · 1 评论