自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

华夏_数据分析

分享一些数据分析的想法和感悟。

  • 博客(26)
  • 收藏
  • 关注

原创 泰坦尼克乘客生存预测

1. sklearn 中的决策树模型首先,我们需要掌握 sklearn 中自带的决策树分类器 DecisionTreeClassifier,方法如下:clf = DecisionTreeClassifier(criterion='entropy')到目前为止,sklearn 中只实现了 ID3 与 CART 决策树,所以我们暂时只能使用这两种决策树,在构造 DecisionTreeCla...

2019-09-04 23:18:59 815

原创 关于 A/B test 的项目

数据源 提取码: w3uv1. 样本数据为某APP的首页迭代策略ab_test上线后,用户未来7日的活跃天数,请分析A、B组策略,哪组策略更优;打开数据源,sheet-频度分析一,展示部分数据计算出A组,B组的均值,中位数,众数,标准差由上图看出A组的均值大于B组,但是并不能就直接说A组的ab_test的策略好于B组下面用数据透视表统计一下具体停留时间的频数可以看出,小于均值的...

2019-08-30 12:02:26 598

原创 概率论基础

1. 数组的集中趋势1.1 常用的集中趋势指标-我们如何定义一个数组的中心我们常用以下几个指标来描述一个数组的集中趋势:均值-算数平均数,描述平均水平,例如:客单价、件单价、人均访问时长、平均配送时长;中位数-将数据按升序或降序排列后位于正中间的数,描述中等水平;众数-数据中出现最多的数,描述一般水平;假设A、B两组数:A:5,6,6,6,6,8,10B:3,5,5,6...

2019-08-29 13:33:00 502

原创 Excel动态图可视化

OFFSET、MATCH、INDEX——函数中的极品复杂的数据汇总、到数据透视表再到高级动态图表offset函数match函数index函数图形示例:作图步骤:用到了index()和match()函数的结合第一步:创建“渠道”,“日期”,“交易额1(仅选择所有数据)”三个变量第二步:在数据下的数据验证中创建渠道筛选框,选择三个渠道为选择内容第三步:使用公式:in...

2019-08-28 17:46:12 6309 1

原创 Excel高级图表实现

1. 雷达图简介:将多个维度的数据映射到坐标轴上,这些坐标轴起始于同一个圆心点,通常结束于圆周边缘,像这样将同一组点用线连接起来的图形称为雷达图。它可以将多维数据进行展示和对比,但点的相对位置和坐标轴之间的夹角是没有任 何信息的。每一个维度的数据都分别对应一个坐标轴,这些坐标轴具有相同的圆心,以相同的间距沿径向排列,并且各坐标轴的刻度相同。连接各坐标轴的网格线通常只作为辅助元素。将各坐标...

2019-08-27 23:46:00 4008 2

原创 Tableau高级图表实现

1. 箱线图使用场景:探索各不同分类数据下数值型数据分布情况使用技巧:可以将箱线图重合的散点打乱使得数据分布展示更直观使用带有信息的标志类型常用图形:dashboard:2. 瀑布图使用场景:探索数值型数据的内部结构,了解初始值如何受到一系列中间正负因素的影响后变成最终的汇总结果使用技巧:可用各类型数据的颜色深浅代表各分类数据的大小常用...

2019-08-26 23:51:03 5108

原创 Tableau的认识与基本图形可视化

1. 什么Tableau?Tableau是一款定位于数据可视化敏捷开发和实现的商务智能展现工具,可以用来实现交互的、可视化的 分析和仪表板应用,从而帮助企业快速地认识和理解分析数据,以应对不断变化的市场环境与挑战。主要特性:高效性:Tableau通过内存数据引擎,可以直接查询外部数据,还可以动态地从数据仓库抽取数 据,实时更新连接数据,大大提高数据访问和查询的效率。简单易用:不需...

2019-08-21 16:25:28 2092

原创 Excel基本图形可视化介绍

1. 基本图形的制作流程和方法图表的选择:决定你的信息→确定相对关系→选择图表形式从多个维度观察数据,明确你要表达的信息突出最重要的数据 并以之确定你的信息选择要强调的信息作为图的标题画图:选择数据,完成基本图形→调整大小比例(4:6.5黄金分割点)→润色,调整样式→增加图例坐标轴和标题2. 柱状图与条形图简介:柱状图是使用垂直的柱子显示类别之间的数值比较。其中一个轴(...

2019-08-20 11:18:43 1317

原创 HiveSQL常用技巧

1. 去重技巧—用group by替换distinct取出user_trade中的全部支付用户## 原有写法SELECT distinct user_nameFROM user_tradeWHERE dt>'0';## 优化写法SELECT user_nameFROM user_tradeWHERE dt>'0'GROUP BY user_name;在2...

2019-08-19 22:14:43 609

原创 HiveSQL基础之窗口函数

1. 累计窗口函数sum(…) over(…)2018年每月支付总额和当年累积支付总额SELECT a.month, a.pay_amount, sum(a.pay_amount) over(order by a.month)FROM (SELECT month(dt) as month, sum(pay_amount) as pay_amount FRO...

2019-08-18 23:48:35 723

原创 HiveSQL基础之表连接

1. inner join内连接,返回两个表的交集既在user_list_1又在user_list_2的用户SELECT * FROM user_list_1 as aJOIN user_list_2 as bON a.user_id=b.user_id;表连接时,必须进行重命名on后面使用的连接条件必须起到唯一键值的作用inner可以省略不写,效果一样一定要先去重,再...

2019-08-17 17:51:32 1718

原创 HiveSQL基础之常用函数

1. 如何把时间戳转换成日期语法from_unixtime(bigint unixtime, string format)format1. yyyy-MM-dd hh:mm:ss2. yyyy-MM-dd hh3. yyyy-MM-dd hh:mm4. yyyyMMdd举例SELECT from_unixtime(paytime,'yyyy-MM-dd h...

2019-08-16 22:23:23 670

原创 Excel快捷键及常用技巧

常用快捷键mac电脑把Ctrl换成Command即可Ctrl+方向键,对单元格光标快速移动,移动到数据边缘(空格位置)Ctrl+Shift+方向键,对单元格快读框选,选择到数据边缘(空格位置)Ctrl+A,选择整张表Ctrl+Shift+L 修改单元格样式Ctrl+Enter,以当前单元格为始,往下填充数据和函数Ctrl+Z,撤回当前操作Alt+Enter,换行Ctrl+S,快...

2019-08-13 09:00:28 311

原创 Excel常用公式

一. 数据清洗类trim功能:去除单元格两端的空格。语法:=TRIM(text)concatenate功能:连接单元格内的内容语法:= CONCATENATE(text1, [text2], …)&连接符left right midMID功能:提取字符串中间的字符串语法:= MID(text, start_num, num_chars)LEFT功能:提取字符串...

2019-08-12 16:01:12 256

原创 SQLZOO答案之【More JOIN operations】

1. 列出1962年首影的電影, [顯示 id, title]SELECT id, title FROM movie WHERE yr=1962;2. 電影大國民 ‘Citizen Kane’ 的首影年份。SELECT yrFROM movieWHERE title = 'Citizen Kane'3. 列出全部Star Trek星空奇遇記系列的電影,包括id, titl...

2019-08-09 09:13:21 1290 1

原创 SQLZOO答案之【The JOIN operation】

1. 第一個例子列出球員姓氏為’Bender’的入球數據。 * 表示列出表格的全部欄位,簡化了寫matchid, teamid, player, gtime語句。修改此SQL以列出 賽事編號matchid 和球員名 player ,該球員代表德國隊Germany入球的。要找出德國隊球員,要檢查: teamid = ‘GER’SELECT matchid, player FROM goal ...

2019-08-07 14:15:34 909

原创 SQLZOO答案之【SUM and COUNT】

1. 展示世界的總人口。SELECT SUM(population)FROM world;2. 列出所有的洲份, 每個只有一次。SELECT DISTINCT(continent)FROM world;3. 找出非洲(Africa)的GDP總和。SELECT SUM(gdp)FROM worldWHERE continent = 'Africa';4. 有多少個國家具有...

2019-08-06 15:26:26 1224

原创 SQLZOO答案之【SELECT within SELECT】

1.

2019-08-05 12:09:30 1312

原创 SQLZOO答案之【SELECT from WORLD】

SQLZOO答案之【SELECT from WORLD】1. 觀察運行一個簡單的SQL命令的結果。SELECT name, continent, population FROM world;2. 顯示具有至少2億人口的國家名稱。 2億是200000000,有八個零。SELECT name FROM worldWHERE population>200000000;3. 找出有...

2019-08-04 19:00:13 1210

原创 SQLZOO答案之【SELECT within SELECT】

2019-08-04 18:42:58 313

原创 google play store的app数据分析

google play store app数据源 提取码: 38jkgoogle play store的app数据分析1. 加载数据加载数据分析使用的库加载数据前,先用文本编辑器简单浏览一下数据加载好数据之后,第一步先分别使用shape、head、count、describe和info方法看下数据import numpy as npimport pandas as pdimp...

2019-07-31 10:05:58 5496 1

原创 电商数据分析

电商数据源 提取码: zivw电商数据分析1. 加载数据加载数据分析使用的库加载数据前,先用文本编辑器看下数据的格式,首行是什么,分隔符是什么加载好数据之后,第一步先分别使用describe和info方法看下数据的大概分布# 加载数据分析使用的库import numpy as npimport pandas as pdimport matplotlib.pyplot as ...

2019-07-30 01:15:40 852 2

原创 阿里巴巴股票行情分析

阿里巴巴股票数据集 提取码: spyv简单分析上代码import numpy as npfrom dateutil.parser import parse# 指定打开的文件名# 不需要的行需要skip掉# 默认没有分隔符,所以需要指定delimiter# 不加载全部的情况下需要指定加载哪些列usecols# 希望把每一列加载到单独的数组中需要设置unpack=True,并指定...

2019-07-27 13:12:02 1021 1

原创 2018年北京积分落户数据分析 看这篇就够了

2018北京积分落户名单 百度网盘提取码: w7gy 话不多说,直接上代码import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 读取文件luohu_data = pd.read_csv('./bj_luohu.csv', index_col='id')# 显示前5条信息print(luohu_...

2019-07-26 13:32:26 5552

原创 笔记之【MySQL经典概括】

一条sql语句是怎么执行的?查看缓存缓存打开SQL大小写敏感哈希查找验证权限解析词法分析语法分析生成解析树预处理特殊语义处理权限验证查询优化对于select生成执行计划基于成本的预测提交给存储引擎根据表的Meta信息,提交给对应的存储引擎返回结果返回结果集返回状态...

2019-07-25 09:48:09 155

原创 利用python中的pandas和matplotlib进行电影数据分析

项目案例数据集介绍这是一份好莱坞电影数据,有28个特征,五千多个样本,特征有电影时长、导演、票房、语言、评分等,样本中有缺失值,需要进行处理。项目任务查看票房收入统计卡的上的考虑...

2019-07-24 15:33:05 3803

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除