![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 69
YouShouldKnowMe
脑电算法研究中心的资深数据分析师,拥有超过4年的数据分析实战经验。专业技能涵盖了数据分析的全生命周期,包括但不限于数据采集、数据清洗、高级统计分析、动态数据可视化、特征工程以及复杂数据建模等领域。熟练运用多种数据分析工具和技术,包括Python、SQL、SPSS/SPSSPRO、Tableau以及Microsoft Excel等,能够高效地处理和分析大规模数据集。分析专长倾向于统计学领域,能够执行包括描述性统计、方差分析、卡方检验、回归分析、因子分析、相关性分析以及聚类分析等多种统计方法。
展开
-
数据分析之数据仓库
数据仓库(简称“数仓”),顾名思义,存放数据的仓库,它集合了各个业务系统的数据,以金融业为例,数仓包含了贷款业务、CRM、存款业务等数据。用于企业做数据分析、出报告、做决策;在有些公司也作为各业务系统的数据来源。从逻辑上理解,数据库和数仓没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大。数据库与数据仓库最主要的区别在于,传统事务型数据库如 MySQL 用于做联机事务处理(OLTP),例如交易事件的发生等;原创 2022-09-19 10:57:25 · 998 阅读 · 0 评论 -
数据分析之假设检验
假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差异造成的统计推断方法。显著性检验是假设检验中最常见的一种方法,也是一种最基本的统计推断形式。其基本原理是:先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。对总体特征做某种假设,然后通过样本研究统计推理,最终对此假设做出接受或者拒绝的判断,常见的假设检验有:Z检验、t检验、F检验、卡方检验。原创 2022-09-15 17:02:19 · 2377 阅读 · 0 评论 -
数据分析之方差分析(ANOVA)
名字是方差分析,其实主要是比较总体的均值,在判断均值是否有差异时要借助方差。它的优点是可以增加分类的可靠性。如果要研究4个总体的均值那么要两两比较需要比较6次,如果每次犯第一类错误的概率都是0.05,那么随着实验次数的增多会增大犯错误的概率。一般来说,随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增大(并非均值真的存在差别),而方差分析就是同时考虑所有的样本,因此排除了错误累积的概率,从而避免拒绝一个真实的原假设。.........原创 2022-07-28 15:59:39 · 66900 阅读 · 2 评论 -
数据分析之卡方检验
检验某个连续变量的分布是否与某种理论分布相一致。例如是否符合正态分布,均匀分布,Poisson(泊松)分布检验某个分类变量的各类的概率是否等于指定概率检验某两个分类变量是否 相互独立检测两种方法的检测结果是否一致检测控制某种或某几种的变量后,另外两个分类变量是否相互独立。............原创 2022-07-04 10:16:39 · 44917 阅读 · 3 评论 -
数据分析之技术文章分享
《SQL必知必会》万字精华!原创 2022-05-31 11:12:26 · 248 阅读 · 0 评论 -
Pycharts 常用技巧(柱状图、条形图、折线图、堆叠图及多图组合) -进阶
1 数据堆叠柱状图代码from pyecharts import options as optsfrom pyecharts.charts import Barl1=['星期一','星期二','星期三','星期四','星期五','星期六','星期日']l2=[100,200,300,400,500,400,300]l3=[300,400,500,400,300,200,100]bar = ( Bar() .add_xaxis(l1) .add_yaxis("l2",原创 2021-03-30 14:36:37 · 1541 阅读 · 2 评论 -
Pycharts 常用技巧(柱状图、条形图、折线图、堆叠图及多图组合) - 基础
1 基本柱状图代码from pyecharts import options as optsfrom pyecharts.charts import Barl1 = ['星期一', '星期二', '星期三', '星期四', '星期五', '星期六', '星期日']l2 = [100, 200, 300, 400, 500, 600, 700]l3 = [111, 222, 333, 444, 333, 222, 111]bar = ( Bar() .add_xaxi原创 2021-03-30 14:18:23 · 2109 阅读 · 0 评论 -
数据分析中的检验方法-正态性检验、非参数检验、T检验、卡方检验
原文链接已重置,详情请移步以下链接。参数检验与非参数检验。原创 2020-08-11 15:47:21 · 4073 阅读 · 0 评论 -
16种常用的数据分析方法汇总
1.频数分布分析主要通过频数分布表、条图、直方图以及集中趋势和离散趋势的各种统计量,描述数据的分布特征转载 2020-08-03 22:28:30 · 792 阅读 · 0 评论 -
urllib.error.URLError: 「urlopen error [Errno 11004] getaddrinfo failed」
代码import seaborn as snsanscombe = sns.load_dataset('tips')print(anscombe)报错urllib.error.URLError: <urlopen error [Errno 11004] getaddrinfo failed>原因及解决方法电脑配置的DNS不能使用了,只需修改DNS地址为114.114.114.114即可修改DNS链接:https://jingyan.baidu.com/article/2原创 2020-07-10 14:39:48 · 14574 阅读 · 12 评论 -
决策树算法
决策树学习三个过程:1.特征选择。2.构建决策树。3.剪枝在学习决策树算法时首先需要知道一些基本概念:信息 这个...转载 2019-08-06 16:43:16 · 498 阅读 · 0 评论 -
机器学习--Apriori算法
1.Apriori算法简介Apriori算法是常用于挖掘出数据关联规则的算法,能够发现事物数据库中频繁出现的数据集,这些联系构成的规则可帮助用户找出某些行为特征,以便进行企业决策。例如,某食品商店希望发现顾客的购买行为,通过购物篮分析得到大部分顾客会在一次购物中同时购买面包和牛奶,那么该商店便可以通过降价促...转载 2019-08-01 14:43:40 · 921 阅读 · 0 评论 -
关联规则、支持度(support)、置信度(confidence)
关联规则关联规则:用于表示数据内隐含的关联性Support(支持度):表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务的比例,那么Support=P(A&B)Confidence(可信度):表示使用包含A的事务中同时包含B事务的比例,即同时包含A和B的事务占包含A事务的比例。公式表达:Confidence=P(A&B)/P(A)Li......原创 2019-08-01 14:37:29 · 36518 阅读 · 0 评论 -
K-Means 和 KNN 算法
1.K-Means 和 KNN 算法的区别首先,这两个算法解决的是数据挖掘中的两类问题。K-Means 是聚类算法,KNN 是分类算法。其次,这两个算法分别是两种不同的学习方式。K-Means 是非监督学习,也就是不需要事先给出分类标签,而 KNN 是有监督学习,需要我们给出训练数据的分类标识。最后,K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K ...原创 2019-07-26 20:34:25 · 1314 阅读 · 0 评论 -
合并表、数据清洗
合并表1. 表堆叠 – concan()函数堆叠:根据行、列索引进行表的拼接,而不看元素的值import pandas as pdimport numpy as npimport matplotlib.pyplot as plt#读取数据data1 = pd.read_excel("meal_order_detail.xlsx",sheet_name=0)data2 = pd...原创 2019-07-22 19:22:04 · 928 阅读 · 0 评论 -
Pandas操作库使用方法汇总及思维导图
原创 2019-07-22 19:03:01 · 584 阅读 · 0 评论 -
Numpy小技巧思维导图总结
原创 2019-07-22 18:57:39 · 416 阅读 · 0 评论 -
数据分析
数据分析定义数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总、理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。目的数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。(帮助管理者进行有效的判断和决策)分类数据分析划分...原创 2019-07-15 20:14:30 · 367 阅读 · 0 评论 -
Numpy使用
NumPy - 简介NumPy 是一个 Python 包。 它代表 “Numeric Python”。 它是一个由多维...转载 2019-07-16 17:18:43 · 339 阅读 · 0 评论 -
Numpy的使用总结
一、Numpy的使用定义NumPy(Numerical Python) 是 Python语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy 是一个运行速度非常快的数学库,主要用于数组计算NumPy 通常与 SciPy(Scientific Python)和 Matplotlib(绘图库)一起使用, 这种组合广泛用于替代 MatLab,...原创 2019-07-16 19:35:07 · 1109 阅读 · 0 评论 -
Pandas统计分析操作总结
统计分析定义统计分析是数据分析重要的组成部分,它几乎贯穿了整个数据分析的流程。应用统计方法,将定量与定性结合,进行的研究活动叫统计分析。统计分析除了包含单一数值型特征的数据集中趋势、离散趋势和峰度与偏度等统计知识外,还包含了多个特征比较计算等知识。导包pip install pandas在控制台显示所有数据设置#显示所有列pd.set_option("display.ma...原创 2019-07-19 08:46:07 · 2828 阅读 · 0 评论 -
matpiotlib可视化操作总结
基础操作导包import matplotlib.pyplot as plt1.figure 创建画布创建空白画布,可以指定画布的大小、像素F = plt.figure()2. flot 绘制曲线plot(x,y)绘制曲线plt.plot(x,y)...原创 2019-07-17 16:51:02 · 1119 阅读 · 0 评论 -
监督学习、分类算法、KNN最近邻算法
import osimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt#强制打印数组# np.set_printoptions(threshold=10000000000000000)#数据转换def data_trans(path): #获取文件夹中文件名,返回文件名数组 di...原创 2019-07-24 21:15:19 · 252 阅读 · 0 评论 -
机器学习
...转载 2019-07-30 10:05:56 · 381 阅读 · 0 评论 -
机器学习--线性回归和逻辑回归
一、什么是机器学习二、线性回归2.1 线性回归的表达式三、逻辑回归3.1 逻辑回归的损失函数3.2 逻辑回归实现多分类四、LR的特点五、 为什么逻辑回归比线性回归好六、 LR和SVM的关系一、什么是机器学习利用大量的数据样本,使得计算机通过不断的学习获得一个模型,用来对新的未知数据做预测。有监督学习(分类、回归)同时将数据样本和标签输入给模型,模型学习到数据和标签的映射关系,从而对新...转载 2019-08-02 15:36:39 · 330 阅读 · 0 评论 -
聚类算法和分类算法
原博文:聚类算法的种类:基于划分聚类算法(partition clustering)k-means: 是一种...转载 2019-07-30 14:06:13 · 1483 阅读 · 0 评论 -
数据仓库中的数据建模方法
简介: 本文的主要内容不是介绍现有的比较流行的主要行业的一些数据模型,而是将笔者在数据仓库建设项目中的一些经验...转载 2019-07-30 14:50:06 · 393 阅读 · 0 评论 -
非监督学习、聚类算法、K_Means算法
K_Means算法定义作为无监督聚类算法中的代表——K均值聚类(Kmeans)算法,该算法的主要作用是将相似的样本自动归到一个类别中。所谓的监督算法,就是输入样本没有对应的输出或标签。聚类(clustering)试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇(cluster)”,聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也可作为分类等其他学习任务的前去过...原创 2019-07-25 20:14:25 · 380 阅读 · 0 评论 -
卡方分布和卡方检验
什么是卡方检验卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( ...转载 2019-07-15 13:49:36 · 652 阅读 · 0 评论