数据分析入门
阿优乐扬
阿优乐扬是一种追求,一种标准,一种态度,一种精神;阿以至优,乐享于扬!2017级贵州财经大学信息学院学生,主修专业信息管理与信息系统,辅修专业金融学。学习方向为数据挖掘与数据分析,欢迎交流学习13124677419
展开
-
数据分析入门之KNN-预测年收入
文章目录1、导入数据2、数据预处理2.1、选择数据2.2、数据转化2.2.1、转化字典2.2.2、数据映射3、训练数据3.1、切分训练集和测试集3.2、训练并预测数据4、归一化处理4.1、最大值最小值归一化4.2、方差标准化5、保存模型与调用5.1、保存模型5.2、加载模型5.3、使用预测操作平台: win10, python37, jupyter数据下载: https://www.lanz...原创 2020-03-17 01:22:34 · 3920 阅读 · 6 评论 -
报表做得让人难受可能是你不了解 Python pyecharts 数据可视化操作
该文章覆盖了pyecharts的大部分用法,可以直接复制粘贴使用,功能齐全;当python 遇见 Echarts , 就产生了pyecharts,pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常好, 是为了与 Python 进行对接,方便在 Python 中直接使用数据生成图。原创 2020-03-06 22:08:12 · 1621 阅读 · 2 评论 -
数据分析入门之2012美国大选政治献金项目
操作环境: window10,Python3.7,Jupyter notebook数据资料: https://www.lanzous.com/i98lfra文章目录1、数据载入与总览1.1、数据加载1.2、数据合并1.3、数据预览和基本统计分析1.3.1、查看数据形状1.3.2、查看是否有空值1.3.3、查看描述性的信息2、数据清洗2.1、缺失值处理2.1.1、查看带有缺失值的列2.1.2、空...原创 2020-02-11 17:50:27 · 2437 阅读 · 1 评论 -
数据分析入门之好莱坞百万级评论数据分析
1. 数据的加载与集成2. 平均分较高的电影3. 不同性别对电影平均评分4. 不同性别争议最大电影5. 评分次数最多热门的电影6. 不同年龄段争议最大的电影7、优化数据,真实可靠原创 2020-02-09 18:54:04 · 2493 阅读 · 0 评论 -
数据分析入门之KNN影片类型和癌症预测
1、预测电影类型1.1、导入相关库1.2、导入数据1.3、切分出 x 和 y1.4、声明算法1.5、进行训练1.6、生成数据(导入预测值)1.7、使用算法进行预测2、预测是否患癌症2.1、获取数据2.1.1、导入数据2.1.2、切分出 x数据 和 y目标值2.1.3、分出训练集和测试集2.3、声明算法并学习2.4、结果预测2.5、概率预测2.6、预测值与真实值对比2.7、计算预测的准确率方法一:均值法方法二:knn.score()原创 2020-02-08 16:53:51 · 2618 阅读 · 1 评论 -
数据分析入门之使用scikit-learn构建模型
1、使用sklearn转换器处理数据2、构建并评价聚类模型3、构建并评价分类模型4、构建并评价回归模型将数据集划分为训练集和测试集,使用sklearn转换器进行数据预处理与降维,使用sklearn估计器构建聚类模型,cluster提供的聚类算法及其适用范围,sklearn库常用回归算法函数原创 2020-01-24 16:44:44 · 3419 阅读 · 2 评论 -
数据分析入门之pandas数据预处理
合并数据、横向表堆叠纵向堆叠concat函数append方法主键合并数据merge函数join方法重叠合并数据清洗数据检测与处理重复值记录重复利用列表(list)去重利用集合(set)的元素是唯一的特性去重drop_duplicates去重方法特征重复corr函数检测与处理缺失值检测与处理异常值标准化数据转换数据原创 2020-01-22 21:13:53 · 2009 阅读 · 1 评论 -
数据分析入门之python读写不同数据源的数据
1、读写数据库数据1.1、数据库链接设置1.2、数据库数据读取1.2.1、read_sql_table1.2.2、read_sql_query1.2.3、read_sql1.2.4、读取数据库结果1.2.5、三者区别1.3、数据库数据存储2、读写csv文件2.1、读取csv数据2.1.1、使用read_table来读取文本文件2.1.2、使用read_csv函数来读取csv文件2.2、文本文件储存3、读写Excel文件3.1、Excel文件读取3.2、Excel文件储存原创 2020-01-21 17:29:39 · 1563 阅读 · 0 评论 -
数据分析入门之Matplotlib数据可视化基础(散点图、折线图、直方图、饼图、箱线图)
1、掌握pyplot基础语法1.1、基本绘图流程1.2、创建画布与创建子图1.2.1、设置画布大小1.2.2、添加图列1.2.3、解决中文乱码1.3、添加画布内容1.4、保存与展示图形1.5、查看本地文件夹2、绘制散点图2.1、导入数据2.2、解决"Object arrays cannot be loaded when allow_pickle=False"错误2.3、绘制散点图3、绘制折线图4、绘制直方图5、绘制饼图6、绘制箱线图6.1、绘制单个箱线图6.2、绘制多个箱原创 2020-01-15 15:46:02 · 4836 阅读 · 1 评论 -
数据分析入门之Numpy读写与统计分析
1、读写二进制文件1.1、创建两个随机数组1.2、使用save保存单个数据1.3、使用savez保存多个数据1.4、使用load读取数据2、读取文本格式的数据2.1、savetxt函数2.2、loadtxt函数2.3、genfromtxt函数3、对数组进行排序3.1、直接排序3.2、间接排序4、去重与重复数据4.1、重复数据4.2、数据去重5、常用的统计函数5.1、案例实战5.1.1、数据初始化5.1.2、统计运算原创 2020-01-14 13:40:36 · 1947 阅读 · 0 评论 -
数据分析入门之Numpy 矩阵与通用函数
文章目录1、创建Numpy矩阵1.1、创建与组合矩阵1.1.1、使用mat函数创建矩阵1.1.2、使用matrix函数创建矩阵1.1.3、使用bmat函数合成矩阵1.2、矩阵的运算1.2.1、举证运算1.3、矩阵特有属性2、认识ufunc函数2.1、如何把a全部平方?2.2 ufunc函数的广播机制1、创建Numpy矩阵1.1、创建与组合矩阵1.1.1、使用mat函数创建矩阵import ...原创 2020-01-14 00:08:39 · 409 阅读 · 0 评论 -
数据分析入门之Numpy数组对象学习
文章目录1、掌握 NumPy 数组对象 ndarray1.1、 数组属性:ndarray(数组)是存储单一数据类型的多维数组。1.2、数组创建1.2.1、重新设置数组的 shape 属性1.2.2、使用 arange 函数创建数组1.2.3、使用 linspace 函数创建数组——等差1.2.4、使用 logspace 函数创建数列——等比1.2.5、使用zeros函数创建数组——全“0”1.2....原创 2020-01-13 20:35:22 · 645 阅读 · 1 评论 -
数据分析入门之数据分析方法
文章目录1、基本统计1.1、导入数据1.2、数据描述1.3、统计各值2、分组分析2.1、导入数据2.2、增加一倍数列2.3、基本统计2.4、多重分组统计2.5、查看数据2.6、多层索引查询2.6.1、建立多层索引2.6.2、索引查询2.7、重置索引、3、分布分析、3.1、导入数据3.2、数据分组3.3、统计分组数据4、交叉分析4.1、导入数据并分组4.2、交叉分析(透视表)4.2、合并DataFrame5、结构分析5.1、导入数据5.2、交叉分析(透视表)5.3、交叉分析运算6、相关关原创 2020-01-12 18:48:17 · 489 阅读 · 0 评论 -
数据分析入门之数据可视化(散点图、折线图、饼图、柱状图、直方图)
文章目录1、散点图1.1、导入数据1.2、数据可视化1.3、设置参数1.4、自定义样式1.5、解决中文不能显示2、折线图2.1、导入数据2.2、日期类型转换2.3、数据可视化3、饼图3.1、导入数据3.2、分组统计数量3.2、饼图展示4、柱状图4.1、导入数据4.2、分组求和4.3、建立X轴的序列4.4、数据可视化4.5、三维柱状图4.6、堆叠柱状图5、直方图5.1、导入数据5.2、绘制直方图5....原创 2020-01-11 17:58:41 · 10019 阅读 · 2 评论 -
数据分析入门之python数据处理
文章目录1、缺失值处理1.1、缺失值的产生1.2、缺失值的处理方式2、空格数据处理2.1、空格数据实列2.2、导入数据实列2.3、清除左右空格方法1、缺失值处理1.1、缺失值的产生①有些信息暂时无法获取②有些信息被遗漏或者错误处理了1.2、缺失值的处理方式①数据补齐②删除对应缺失行③不处理■dropna函数作用:去除数据结构中值为空的数据。■dropna函数语法: dropn...原创 2020-01-10 23:32:59 · 1513 阅读 · 1 评论 -
数据分析入门之python pandas数据导入与导出
文章目录1、导入csv数据2、导入文本数据3、导入Excel文件4、保存数据1、导入csv数据from pandas import read_csvfilename = "F:\\数据分析\\数据分析3\\章节4数据处理\\4\\4.1\\a.csv"df = read_csv(filename,encoding="UTF-8")print (df)2、导入文本数据使用read_t...原创 2019-12-30 20:54:54 · 1222 阅读 · 0 评论 -
数据分析入门之numpy数组数据大小比较与筛选去重
数据分析入门之numpy数组数据大小比较与筛选1.构造数组2.比较数组的最值2.1、比较所有列的最小值2.2、比较所有行的最大值3.比较数据4.筛选出满足条件的数据1.构造数组import numpyfrom pandas import DataFramedf = DataFrame({ 'data1':numpy.random.randn(5), 'data2':nump...原创 2019-12-30 08:52:39 · 8262 阅读 · 0 评论