数据分析
猫小咪编程
不忘初心
展开
-
Python数据预处理相关库
数据预处理相关库# 解决机器学习问题的科学计算工具包import sklearn.preprocessing as sp均值移除(标准化)由于一个样本的不同特征值差异较大,不利于使用现有机器学习算法进行样本处理。均值移除可以让样本矩阵中的每一列的平均值为0,标准差为1。如何使样本矩阵中的每一列的平均值为0呢?例如有一列特征值表示年龄: 17, 20, 23mean = (17 + 20 + 23)/3 = 20a' = -3b' = 0c' = 3完成!如何使样本矩阵中的每一原创 2020-05-18 22:22:37 · 755 阅读 · 2 评论 -
Python实现数据预处理--特征标准化与归一化
本文不对标准化和归一化相关原理和公式作阐述标准化(均值移除)由于一个样本的不同特征值差异较大,不利于使用现有机器学习算法进行样本处理。均值移除可以让样本矩阵中的每一列的平均值为0,标准差为1。转换公式如下:标准化的意义:想象一下,我们经常通过梯度下降来进行优化求解,公式一般如下,如果特征之间的数值差异太大,那么更新的结果肯定也会产生较大的差异,这是我们所不希望的。在最开始的时候,我们认为特征之间的重要程度的是一样,并不想偏袒哪个特征,所以这部预处理工作必做!import pandas as p原创 2020-05-18 22:15:06 · 7633 阅读 · 0 评论 -
Python实现数据预处理-离散值处理
关于特征值离散化的相关内容可以看机器学习面试题之机器学习基础(一)1.pandas进行特征离散处理import pandas as pddf = pd.DataFrame([ ['green', 'M', 10.1, 'class1'], ['red', 'L', 13.5, 'class2'], ['blue', 'XL', 15.3, 'class1']])df.columns = ['color', 'size',原创 2020-05-17 21:27:03 · 5139 阅读 · 1 评论 -
scipy--统计检验
今天整理了一下使用python进行常用统计检验的命令与说明,具体的关于假设检验、统计量、p值等统计学相关的知识可以参考数据分析之必会统计学1.正态性检验正态性检验是检验数据是否符合正态分布,也是很多统计建模的必要步骤,在Python中实现正态性检验可以使用W检验(SHAPIRO-WILK TEST)检验原假设:样本服从正态分布结果解释:当p值小于某个显著性水平α(如0.05)时,则认为样本不是来自正态分布的总体,否则承认样本来自正态分布的总体。from scipy.stats import sha转载 2020-05-17 11:42:47 · 1821 阅读 · 2 评论 -
利用python进行数据清洗
在做数据分析之前,我们首先要明确数据分析的目标,然后应用数据分析的思维,对目标进行细分,再采取相应的行动。我们可以把数据分析细分为以下 8 个步骤:(1)读取(2)清洗(3)操作(4)转换(5)整理(6)分析(7)展现(8)报告下面我们用一副待清洗的扑克牌作为示例,假设它保存在代码文件相同的目录下,在 Jupyter Lab 环境中运行以下代码:import numpy as...转载 2020-04-21 15:50:14 · 9391 阅读 · 1 评论 -
数据分析之必会的统计学
在统计学研究中,统计学中最常见的三个“平均值”是均值,中位数和众数:算术平均值:它是统计学中的一个重要概念。算术平均值也可称为平均值,它是通过将两个或多个数字/变量相加,然后将总和除以数字/变量的总数而获得的数量或变量。中位数:中位数也是观察一组数据平均情况的一种方法。它是一组数字的中间数字。结果有两种可能性,因为数据总数可能是奇数,也可能是偶数。如果总数是奇数,则将组中的数字从最小到...转载 2020-03-25 16:21:28 · 383 阅读 · 0 评论 -
如何用Pandas读/存数据
1. 序言读取数据往往是做数据分析的第一步,本文只是简单的针对一些问题的解决方案,未来当大家遇到类似问题的时候,应该可以借鉴。统一使用 Pandas 来读取数据:# 导入 pandas 模块import pandas as pd这是每次重新开始数据分析之前,都需要运行的代码,以后凡是见到包含 pd. 的代码,就表示我们已经运行了这行代码。输入 pd.read 后,按 Tab 键,系...翻译 2020-03-25 09:55:32 · 762 阅读 · 0 评论 -
如何用Python进行数据分析
0声明该文章转自林骥的公众号内容,作者认为他的公号内容非常丰富,建议大家去关注以浏览更加精彩内容经过前期的读取数据、清洗数据、操作数据、转换数据和整理数据,接下来我们将进入分析数据的阶段,这是数据分析工作的重中之重。假设你的客户(可能是你的领导,也可能就是你自己),给你发来一份销售数据,他希望你分析分析,看看如何提高销量。你不妨先自己思考一下,当你接到这个分析任务的时候,你会怎么做?然后再...转载 2020-03-25 09:54:25 · 1814 阅读 · 0 评论