数据分析
文章平均质量分 52
数据分过程中的问题记录及经验总结
Robin_Pi
所有觉得难得东西,只是因为没有真正理解最基础的概念
展开
-
SQL 难点对比分析:JOIN 和 UNION & UNION 和 UNION ALL
UION原创 2022-07-19 14:04:23 · 644 阅读 · 0 评论 -
业务相关:如何给业务提建议——将问题分析到足够的深度
业务相关:如何给业务提建议——将问题分析到足够的深度原创 2022-07-12 06:43:47 · 315 阅读 · 0 评论 -
Mysql:使用视图创建临时表,使用别名后,则原字段失效
MySQL 视图 别名原创 2022-07-09 13:05:49 · 488 阅读 · 0 评论 -
使用TEXT函数处理日期时间
使用TEXT函数处理日期时间原创 2022-06-26 10:10:30 · 3856 阅读 · 0 评论 -
合并 Excel 的多张工作表Sheet报错:无法在此处粘贴此内容
无法在此处粘贴此内容原创 2022-06-25 13:24:50 · 6874 阅读 · 2 评论 -
SQL优化:MySQL索引和优化
SQL优化:MySQL索引和优化原创 2022-04-25 15:39:54 · 1176 阅读 · 0 评论 -
SQL难点对比分析:IN 和 EXISTS 的用法对比
SQL难点对比分析:IN 和 EXISTS 的用法对比原创 2022-04-23 15:40:29 · 3360 阅读 · 0 评论 -
咨询顾问的数据分析技能
咨询的数据分析原创 2022-04-09 17:27:50 · 808 阅读 · 0 评论 -
数据科学家面试问答集锦(109个常见问题和回答)
数据科学家面试问答集锦原创 2022-04-09 08:24:59 · 1460 阅读 · 0 评论 -
SQL:字段别名不加引号报错
SQL:字段别名不加引号报错原创 2022-03-02 17:18:07 · 846 阅读 · 0 评论 -
Navicat for MySQL Mac 版初次使用
Navicat for MySQL Mac 版初次使用原创 2022-03-02 14:31:41 · 1930 阅读 · 2 评论 -
数据分析实战:淘宝用户行为分析
数据分析实战:淘宝用户行为分析原创 2022-03-02 10:22:07 · 2741 阅读 · 0 评论 -
SQL 数字排序问题:按照数字大小排序而不是字母顺序
SQL 数字排序问题:按照数字大小排序而不是字母顺序原创 2022-03-01 15:59:51 · 1923 阅读 · 0 评论 -
SQL:在命令行运行没有反应
SQL:在命令行运行没有反应原创 2022-02-23 10:15:08 · 2361 阅读 · 1 评论 -
SQL 极简核心(2):核心框架
SQL 极简核心(2)核心框架(先挖个坑)原创 2022-02-10 08:08:35 · 516 阅读 · 0 评论 -
SQL 极简核心(1):核心内容(ing)
文章目录GROUP BYJOIN窗口函数GROUP BYJOIN窗口函数有空要总结一下Oracle开发之:窗口函数 (转)原创 2022-02-06 14:30:41 · 436 阅读 · 0 评论 -
MySQL报错:SQL_ERROR_INFO: ‘FUNCTION DATEADD does not exist‘
SQL_ERROR_INFO: ‘FUNCTION DATEADD does not exist‘原创 2022-02-04 12:17:39 · 4320 阅读 · 0 评论 -
SQL:HAVING 后可以直接跟聚合函数
SQL:HAVING 后可以直接跟聚合函数原创 2022-02-04 02:03:48 · 4870 阅读 · 0 评论 -
SQL83 牛客的课程订单分析(七)
SQL83 牛客的课程订单分析(七)原创 2022-02-03 16:25:37 · 565 阅读 · 0 评论 -
SQL 报错:不可使用一些关键字作为别名
牛客网题目:SQL81 牛客的课程订单分析(五)在使用 MySQL 窗口函数时一直报错不得其解:报错:SQL_ERROR_INFO: "You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'rank,\n# row_number() over (partition by user_id o原创 2022-01-27 11:26:24 · 1197 阅读 · 0 评论 -
Python 的“取整”的坑:一文了解Python取整
python 取整问题原创 2020-11-30 15:30:55 · 493 阅读 · 0 评论 -
Python返回列或行最大值对应的内容
文章目录现实场景数据方法现实场景有一堆数据,表示的是语音识别的效果(用相似度得分表示),需要找到每个测试人员最高分数对应的那个对象(判别结果)。数据data = {"tet":["Anna", "Anna", "Bob", "Bob"], "name":["Candy", "Duck", "Candy", "Duck" ], "scores":["254", "390", "450", "178"]}df = pd.DataFrame(data) df tet name scores原创 2020-08-18 10:10:01 · 3957 阅读 · 0 评论 -
数据分析(1)案例和面试题
目录1. 二十四个数据科学案例2. 全面的面试题目总结:数据科学与统计问题机器学习问题深度学习问题案例学习智力题与猜估特定的工具与语言问题新手提示与诀窍励志的故事面试如何找一份数据分析的工作?如何规划数据科学家之路?再次偶然看到猴子的一系列文章,有所思。认识数据(就像认识基本数字0-9一样)|分析数据(使用Excel、Python、SQL等工具)|理解数据(通过算法模型等得出结论)之前一直关注编程工具,但是一直忽略两个重点:一是要认识甚至是记住一些具体案例中的数据,就像记得0-9这几个数字一原创 2020-06-27 09:30:08 · 1186 阅读 · 0 评论 -
数学知识——概率统计(12)小结:单变量的统计描述
文章目录1. 集中趋势描述2. 离散程度描述3. 分布形状指标4. 小结描述性统计量主要分为两大块:集中趋势和离散程度。下面主要根据三种数据类型(数值数据、分类数据、有序分类数据)来进行分别说明这两种统计描述量。1. 集中趋势描述对数据集中趋势的描述,主要是是依赖平均数,它包含均值、众数、中位数三个指标。平均数、众数、中位数的选择分这几种情况:在分类数据中,由于没得选,我们可以选择众数作为我们的统计量;在顺序数据中,我们可以使用众数和中位数作为我们的统计量,但我们更加偏向于选择中位数(分位数原创 2020-06-25 15:19:21 · 804 阅读 · 0 评论 -
值得反复思考的博客(机器学习篇)
文章目录特征工程特征工程特征工程之连续特征与离散特征处理方法介绍原创 2020-04-30 05:59:37 · 268 阅读 · 0 评论 -
数据——变量
变量的分类常见的数据类型包括:定量变量定量变量(或数值变量,quantitative or numeric variable)定量变量(或分类变量/属性变量,qualitative, categorical or attribute variable)定量变量根据变量否离散变量(或非连续性变量,discrete or uncontinuous variable)连续变量(cont...原创 2020-04-26 12:58:06 · 1582 阅读 · 0 评论 -
特征工程——一些知识点记录
标准化和归一化的区别?特征工程 中说,标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。但是,为什么依据”行“跟”列“来处理?以及依据”行“处理和”列“处理有什么区别?为了避免按照”行“来处理而导致可能发生的维...原创 2020-04-26 09:00:45 · 227 阅读 · 0 评论 -
机器学习代码实践——数据——如何快速获取所需的实验数据
目录与机器学习相关数据格式通过 NumPy通过Sklearn与机器学习相关数据格式特征 X 的格式:(n_sample, n_feature)标签 y 的格式:(n_sample , 1)例如:对于只有一个特征的一元模型,X 的格式为 (n_sample , 1),y 的格式为(n_sample, 1),而并不是 (n_sample)和(n_sample)。注意下面两种方式的区别(第...原创 2020-02-26 10:35:13 · 432 阅读 · 0 评论 -
如何使用 sklearn 快速创造出我们所需的数据?
from sklearn.datasets import make_blobsfrom sklearn.datasets import make_blobsX, y = make_blobs(n_samples=300, centers=4, random_state=0, cluster_std=1.0)plt.scatter(X[:, 0], X...原创 2020-02-23 12:25:43 · 429 阅读 · 0 评论 -
数学知识——概率统计(11)小结:多个变量之间的关系描述
目录散点图描述关系特征相关性协方差Pearson相关性非线性关系Spearman秩相关相关性和因果关系之前提到过描述单个随机变量的一些工具,比如正针对整体总体细节的“分布”、针对总体概述的各种统计量(期望、方差等),也提到过针多元随机变量的描述量:协方差和相关系数,现在此总结下多个变量之间关系的研究。散点图研究两个变量之间关系的最简单方法是散点图(scatter plot)。但好的散点图的绘...原创 2020-02-16 13:17:41 · 7460 阅读 · 0 评论 -
数学知识——概率统计(5):单变量统计量:期望和方差
目录描述量期望:分布的中心位置方差:分布的离散程度方差标准差参考描述量统计学家将全面的概率分布信息量投射到某几个量上,来代表随机变量的主要特征,从而掌握该随机变量的主要“性能”。这样的一些量称为随机变量的描述量(descriptor)。比如期望用于表示分布的中心位置,方差用于表示分布的分散程度等等。这些描述量可以迅速的传递其概率分布的一些主要信息,允许我们在深入研究之前,先对其特征有一个大概...原创 2020-02-12 18:28:56 · 2009 阅读 · 0 评论 -
python 数据分析——可视化基础:如何选择可视化图形
可视化图形的选择线型图(line)柱状图(bar)直方图(histogram)箱线图(box)散点图(scatter)线型图(line)线型图可以用来表示具有相关性的两个变量的关系,表示一个变量随另一个变量(比如:时间)变化的情况。注:Pandas 中的 Series 和 Dataframe 都是默认生成的这种图形(使用plot函数)。柱状图(bar)柱状图/条形图适合用于少数类别(&l...原创 2020-02-09 18:39:38 · 1046 阅读 · 0 评论 -
python数据分析——数据结构
0117 先搭框架,待完善!数据数据结构Python及相关库中的经常用到数据结构形式汇总:列表特性:有序、可变存储内容:任何数据(不同类型)结构形式:[ 2020, 'is', $$, [2019, 'was', ¥¥] ]所以,见到下面这样的数据也不要觉得惊奇:它也是列表data = [['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada...原创 2020-01-17 11:46:00 · 272 阅读 · 0 评论 -
如何使用NumPy快速创建我们需要的数据?
不论是在平时的零碎学习还是网课的学习中,在代码上现实或者跑通一个算法或者模型不仅能够让自己理解的更深还能加强我们的记忆。所以,专门花点时间学习一下如何创建和组织出我们想要的数据很有必要。NumPy 数组NumPy 数组需要注意的一点是,数组是相同类型的元素按照一定顺序排列的组合。NumPy 数组的生成方式:生成一般数组生成一维数组:传入列表生成元组的数组:传入元组生成多维数组:传入嵌...原创 2020-01-06 17:23:23 · 1417 阅读 · 0 评论 -
AI 之路——数据分析(1)Pandas小结与框架整理
写在前面主要是阶段性框架总结AI 之路:数据分析——机器学习——深度学习——CV/NLP工具/技能:Python、NumPy、Pandas、Matplotlib——Scikit-learn;LR、SVM…——TensorFlow、Keras、Pytorch;CNN、RNN…数据分析使用 NumPy 或者 Pandas 进行数据分析,后者更为强大和专业,而且有自己的 Matplotli...原创 2020-01-04 18:02:19 · 446 阅读 · 0 评论 -
AI 之路——数据分析(2)利用Pandas进行数据清清洗
数据预处理1. 缺失值处理缺失值python缺失值有3种:1)Python内置的None值2)在pandas中,将缺失值表示为NA,表示不可用not available。3)对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。后面出来数据,如果遇到错误:说什么foloat错误,那就是有缺失值,需要处理掉所以,缺失值有3种:None,NA,NaN(N...原创 2020-01-04 18:36:39 · 427 阅读 · 0 评论