数据分析
文章平均质量分 90
亚呦u椰
这个作者很懒,什么都没留下…
展开
-
Flink Sql
文章目录转载 2020-11-15 03:48:39 · 175 阅读 · 0 评论 -
Hive基本命令
文章目录一. 表的基本操作1. 新建数据库2. 删除数据库3. 显示数据库4. 指定使用数据库5. 创建内部表6. 创建外部表7. 导入数据 load 命令8. 创建分区表 partitioned by ()二. 表的查询和连接0. 准备工作 (准备数据,建表,导入数据)准备数据建表 + 导入数据表当前数据1. 查询 select2. join关联查询内连接 t_a join t_b on condition内连接的结果是取 表a 和 表b 的交集左外连接 t_a left outer join t_b o原创 2020-11-10 00:58:24 · 1231 阅读 · 0 评论 -
Lasso;Ridge;Coordinate Descent;EM算法;Optimization
Lasso和Ridge: https://zhuanlan.zhihu.com/p/30535220EM算法存在的意义: https://www.zhihu.com/question/40797593/answer/275171156Optimization: https://web.stanford.edu/class/ee364a/lectures.html转载 2020-06-26 06:06:31 · 233 阅读 · 0 评论 -
t-distribution;F-distribution;chi-square distribution;ANOVA;AB-Test
转载于博客:https://www.cnblogs.com/think-and-do/p/6509239.html转载 2020-06-19 02:11:20 · 170 阅读 · 0 评论 -
LeetCode for Data Scientist
1 Two Sum2 Add Two Numbers3 Longest Substring Without Repeating Characters5 Longest Palindromic Substring7 Reverse Integer8 String to Integer (atoi)9 Palindrome Number11 Container With Most Water14 Longest Common Prefix15 3Sum16 3Sum Closest17 L原创 2020-06-09 01:53:09 · 261 阅读 · 0 评论 -
数据挖掘模型中的IV和WOE详解
https://blog.csdn.net/kevin7658/article/details/50780391?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task转载 2020-03-12 13:51:21 · 231 阅读 · 0 评论 -
【案例】航班准点分析
文章目录1. 数据集2. 数据探索和清洗3. 起飞以及到达延迟情况4. 数据库样式1. 数据集数据集为美国各州机场的航班信息,包含出发地,目的地,是否出发延迟15分钟,是否到达延迟15分钟等。https://www.transtats.bts.gov/Fields.asp?Table_ID=236import numpy as npimport pandas as pdimport m...原创 2019-08-06 15:44:45 · 1842 阅读 · 3 评论 -
第十三阶段 -- 数据分析05:pandas
1.PandasPandas库基于Numpy库,提供很多用于数据操作与分析功能1.1. 安装与使用安装:pip install pandas | conda install pandas使用:import pandas as pd1.2. 两个常用数据类型pandas提供两个常用数据类型Series:一维的,带标签的数组对象DataFrame:二维的,带标签的数组对象...原创 2019-08-01 21:07:04 · 562 阅读 · 0 评论 -
【案例】电影数据分析
文章目录数据集数据加载数据探索和清洗评分最多电影评分最高分析评分人数中最多的百部电影评分与年龄关系数据集数据集包含3个csv文件,文件中包含电影名字,发行时间,评分用户信息,评分等信息http://grouplens.org/datasets/movielens/ (使用的dataset是older datasets)评分表 (u.data)196 242 3 8812509491...原创 2019-08-05 21:33:26 · 2552 阅读 · 0 评论 -
【案例】足球运动员分析
文章目录足球运动员分析案例需求数据集程序实现导入相关库加载相关数据集数据探索与清洗身高与体重处理运动员身高,体重,评分信息分布左脚与右脚选手在数量上是否存在偏差从球员平均分角度,拥有top10评分能力俱乐部/国家哪个俱乐部更有能力留住球员(5年及以上)足球运动员是否与出生日期相关身高与体重是否具有相关性哪些指标对评分影响最大年龄和评分具有怎样的关系足球运动员分析案例需求从众多的足球运动员中,...原创 2019-08-05 09:56:13 · 1216 阅读 · 0 评论 -
第十三阶段 -- 数据分析07:多层索引
1. 多层索引多层索引(MultiIndex),具有多个层次索引,有些类似于根据索引进行分组的形式。通过多层次索引,我们可以使用高层次索引,来操作整个索引组的数据。1.1 创建方式第一种我们在创建Series或者DataFrame时,通过 index(columns) 参数传递多维数组,进而创建多级索引。多级索引可以通过names属性设置名称,每级索引的元素个数相同。第二种我们 Mul...原创 2019-08-04 20:55:14 · 894 阅读 · 0 评论 -
第十三阶段 -- 数据分析04:numpy
文章目录1. 使用方式2. 数组创建2.1. arry2.2. arange2.3. ones/ones_like2.4. zeros/zeros_like2.5. empty/empty_like2.6. full/full_like2.7. eye/identity2.8. linspace2.9. logspace3. 数组 ndarray 和列表 List 比较4. 魔法命令4.1. ti...原创 2019-07-31 16:38:37 · 807 阅读 · 0 评论 -
第十三阶段 -- 数据分析06:数据的清理_整理
文章目录1. 数据分析什么是数据分析数据分析步骤2. 数据加载3. 写入文件4. 数据清洗4.1. 缺失值处理4.1.1. 发现缺失值4.1.2. 丢弃缺失值4.1.3. 填充缺失值4.2. 无效值处理检测无效值4.3. 重复值处理4.3.1. 发现重复值5. 数据过滤6. 数据转换6.1. 应用与映射6.2. 替换6.3. 字符串向量化运算7. 数据合并7.1. concat7.2. appen...原创 2019-08-03 20:25:13 · 890 阅读 · 0 评论 -
第十三阶段 -- 数据分析03:Seaborn的使用
文章目录Seaborn的使用1. 简介2. 安装3. 背景风格管理4. 移除轴脊柱5. 图像风格管理6. 调色板6.1. 调色板6.2. 连续的调色板自定义连续调色板6.3. xkcd_rgb 颜色6.4. 线性调色板6.5. 色板的应用6.6. 代码示例7. 单变量7.1. distplot 直方图7.2. jointplot 散点图7.3. pairplot8. 回归分析图9. 多变量分析绘图...原创 2019-07-30 10:33:07 · 293 阅读 · 0 评论 -
第十三阶段 -- 数据分析02:Matplotlib的使用
Matplotlib的使用Matplotlib 是一个 Python 的 2D绘图库。通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。为什么学习Matplotlib可让数据可视化,更直观的真实给用户。使数据更加客观、更具有说服力。Matplotlib是Python的库,又是开发中常用的库Matplot...原创 2019-07-29 16:12:07 · 457 阅读 · 0 评论 -
第十三阶段 -- 数据分析01:Anaconda、IPython、Jupyter Notebook配置
文章目录1. Anaconda简介下载与安装虚拟环境conda包管理器2. IPythonIPython查看帮助命令补全3. Jupyter notebookJupyter notebook启动jupyter停止jupyter设置打开浏览器为Firefox修改默认主目录文件操作单元格1. 类型:2. 模式:3. 常用快捷键:1. Anaconda简介Anaconda是Python的一个免费发...原创 2019-07-28 22:15:36 · 1212 阅读 · 0 评论