python数据分析
数据分析中常用的一些库的介绍
天伤星
一个刚刚起步的NLPer~
展开
-
Matplotlib可视化教程
转载自微信公众号:大邓和他的Pythonimport matplotlib.pyplot as pltimport numpy as npimport random基础图表基本示例# 生成数据x = np.linspace(0, 10, 100)y = x ** 2plt.figure()plt.plot(x, y)plt.show()另一种实现方式# 生成数据x = np.linspace(0, 10, 100)y = x ** 3fig, ax = plt.su原创 2020-05-24 12:42:16 · 247 阅读 · 0 评论 -
python3.6安装pyspider报错
最近在学python爬虫,在安装pyspider库的时候,爆了一堆的错,查了好久才解决了,我把这些错误都集中记录在这个帖里,给大家做个参考。首先是安装,用pip安装,用如下命令:pip install pyspider -i https://pypi.tuna.tsinghua.edu.cn/simple博主的python没有永久更换源,所以在安装命令中临时用了更换源的命令。使用了上述命...原创 2020-04-20 19:38:41 · 1422 阅读 · 0 评论 -
数据分析初步
探索性数据分析(Exploratory Data Analysis, EDA)是指对已有的数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征等手段探索数据的结构和规律的一种数据分析方法。数据及背景https://tianchi.aliyun.com/competition/entrance/231784/information(阿里天池-零基础入门数据挖掘)EDA的目标熟悉数据集...原创 2020-04-10 19:01:29 · 835 阅读 · 0 评论 -
关于python使用seaborn画图报错
最近在学习用python进行数据分析,在用seaborn画热力图的时候,出现报错:Cannot cast array data from dtype(‘int64’) to dtype(‘int32’) according to the rule ‘safe’。在网上找了好久,终于解决了。参考链接我是在Windows环境下,用专业版pycharm中的jupyter notebook做数据分析时...原创 2020-04-10 17:29:50 · 1485 阅读 · 1 评论 -
数据分析——特征工程简介
特征工程(Feature Engineering)对特征进行进一步分析,并对数据进行处理。常见的特征工程包括:异常值处理、缺失值处理、数据分桶、特征处理、特征构造、特征筛选及降维等。异常值处理常用的异常值处理操作包括BOX-COX转换(处理有偏分布),箱线图分析删除异常值,长尾截断等方式当然这些操作一般都是处理数值型的数据。BOX-COX转换关于BOX-COX转换,一般是用于连续的变量不满...原创 2020-04-09 20:01:20 · 1934 阅读 · 0 评论 -
PCA与ICA的介绍
Background做一个数据分析业务之前,往往需要对反映事物的多个特征变量进行大量的观测,收集大量数据以便进行分析寻找规律。多个特征变量确实会提供丰富的信息,但是很多情况下变量之间可能会存在相关性,如果用全部特征变量去拟合模型,可能在训练集的效果上会表现的很好,但是在测试集的效果上可能很差。这就存在模型(过度自信)的问题。因此需要找到一种合理的方法,在减少需要分析的特征变量同时,尽量减少特征变...原创 2020-04-06 12:27:21 · 4758 阅读 · 0 评论