数据分析
文章平均质量分 70
成鹏
关注数据分析
展开
-
数据探索和数据准备的步骤
数据探索和数据准备的步骤前言如我们所知,数据分析工作的70%的时间都用作于数据清洗,数据探索和数据准备当中,这可以说是数据分析的核心所在。数据清洗主要是工具层面上的,这里先不讨论。我们这里讨论数据探索和数据准备的六大步骤。 变量的识别单变量的分析双变量的分析处理缺失值处理异常值特征提取(Feature Engineering)变量的识别在对数据分析之前,我们需要去识别变量,去了解变量原创 2015-07-04 11:21:26 · 6746 阅读 · 1 评论 -
如何评估模型好坏
介绍“所有模型都是坏的,但有些模型是有用的”。我们建立模型之后,接下来就要去评估模型,确定这个模型是否‘有用’。当你费尽全力去建立完模型后,你会发现仅仅就是一些单个的数值或单个的曲线去告诉你你的模型到底是否能够派上用场。在实际情况中,我们会用不同的度量去评估我们的模型,而度量的选择,完全取决于模型的类型和模型以后要做的事。下面我们就会学习到一些用于评价模型的常用度量和图表以及它们各自的使用场景。内容原创 2015-08-26 10:23:02 · 9693 阅读 · 1 评论 -
怎样辨别渠道作弊—数据分析篇
节前写了一篇文章,通过统计指标分析渠道投放的效果(点击链接查看),今天想说下怎样辨别渠道作弊,分析渠道的效果,还有反作弊手段。欢迎拍砖。有的运营人员做渠道投放,每个渠道都投放了,点击量特别高,但激活量只有个位数。也有可能点击激活数量都很高,但是留存率很低。费用都花光了,但是效果没有出来。自己做数据分析,但是却得不到结论。我们做数据分析的前提是需要拿到靠谱的数据。如果数据不准确,基于转载 2015-08-29 22:25:50 · 2203 阅读 · 0 评论 -
机器学习scikit-learn(一)
机器学习scikit-learn在数据分析过程中,我们经常会碰到各种各样的问题。如何获取外部数据?如何处理脏数据?如何处理缺失值?若有许多特征,我们减少特征?建立各种模型中算法的细节?到最后,面对多种模型,我们该如何选择?这些问题,都将在此文中得到解答。此文分为五个部分:建立模型的之前的工作 建立线性模型聚类分析分类建立模型之后的工作 建立模型前的工作如何从外界获取数据?获取外界数据原创 2015-08-15 14:38:16 · 5383 阅读 · 0 评论 -
常见的七种回归技术
介绍根据受欢迎程度,线性回归和逻辑回归经常是我们做预测模型时,且第一个学习的算法。但是如果认为回归就两个算法,就大错特错了。事实上我们有许多类型的回归方法可以去建模。每一个算法都有其重要性和特殊性。内容什么是回归分析?我们为什么要使用回归分析?回归有哪些类型 ? 线性回归逻辑回归多项式回归逐步回归岭回归Lasso回归ElasticNet回归如何去选择回归模型?什么是回归分析原创 2015-08-19 11:50:09 · 2624 阅读 · 0 评论 -
PYTHON数据可视化
介绍由于经常需要用Python进行数据数据分析,但经常碰到这样的情况:想做一个图,看看数据的趋势,但是以前记住的代码,在许久没有用后,一下载突然忘了如何去写。这篇cheatsheet是从Analytic Vidhya中找到的,打算自己好好熟悉一遍,然后作为以后的参考。内容为什么数据可视化非常重要?数据可视化python库的介绍cheatsheet用于可视化的数据导入数据直方图箱形图风琴原创 2015-08-20 13:28:18 · 4320 阅读 · 0 评论 -
推荐一个学习SQL的好网站
如果英语可以的话,可以通过这个网站学习SQL,有例子,有实操。http://sqlzoo.net/wiki/SQL_Tutorial原创 2015-09-06 18:40:42 · 2286 阅读 · 0 评论