数据分析与挖掘
文章平均质量分 81
littlespider889
985非计算机硕士毕业
展开
-
小福利,用Excel里面的vlookup函数实现多个数据快速查找
大家好,我是天空之城,今天给大家带来小福利,用Excel里面的vlookup函数实现多个数据快速查找。首先看表1是源数据,现在我要在只知道编号的情况下,从源数据查找到编号对应的姓名和语文成绩就是表2里面的效果,这个时候,我们选中R2这个单元格,在公式编辑栏中输入公式=VLOOKUP(Q2,A:B,2,0),那么vlookup公式里面有四个位置参数,第一个Q2表示编号的位置,就是数字1的位置,第二个A:B表示我选中的数据源的位置就是A列到B列,第三个参数2表示,我所要的姓名这个数据在数据源中的列数就是原创 2021-07-06 07:42:22 · 6512 阅读 · 1 评论 -
python做数据分析6
2.2 机器学习的研究问题2.2.1 回归在前面的情景中,我们所研究的可乐销量与平均气温之间的定量关系,其实是机器学习中的回归问题。回归问题主要研究两种现象之间的定量关系。对于回归,机器需要对已有的数据进行拟合,再根据拟合出来的函数,对未来进行预测。这里形象地说,拟合是寻找一个最优的光滑曲线,从整体上靠近已有的数据。除了回归,机器学习还研究另外三类常见的问题:分类、聚类,以及降维。2.2.2 分类分类问题研究如何判断一个事物属于已知分类中的哪一类。对于分类,机器需要先找到已知分类的划分规原创 2021-05-05 17:48:32 · 190 阅读 · 0 评论 -
Python数据分析5
2.2 Seaborn 与统计图形如前所述,Seaborn 的主要作用是完成我们的统计绘图需求。通常,在实际的数据分析过程中,需要根据数据类型和分析目的来选择相应的统计图形,而 Seaborn 的创造者们在此基础上对图形做了进一步的分类。这其中的原理和联系涉及到一些统计学的基本概念,咱们现在就来学习它们吧。2.2.1 数据的类型在统计学中,变量是描述所观察对象某种特征的概念,变量的观测结果就是数据。一般会把数据分为定性数据(分类数据)和定量数据两个大类,其中,定量数据又可被分为离散数据和连续数据两类原创 2021-05-05 17:48:13 · 195 阅读 · 0 评论 -
Python数据分析4
1. 案例情景由于激烈的市场竞争,各个航空公司相继推出了多样灵活的优惠方式来吸引更多的客户。你所在的闪光航空公司因外力的冲击,面临着旅客流失、竞争力下降和航空资源未充分利用等经营危机。为了公司能立足于市场,需要对不同的客户群体提供个性化的客户服务。下面的【air_new_data.xlsx】工作簿是从公司数据库中拿出的客户信息:身为数据分析师的你,想要通过这些数据建立 RFM 模型,对客户进行分类:再对分类后的客户进行统计分析,为公司接下来的经营方向提供策略。2. 今日知识在正式开始本节案原创 2021-05-05 17:47:57 · 105 阅读 · 0 评论 -
python数据分析003
# 创建一个 DataFrame 对象的数据data_2 = pd.DataFrame({'学号':[1, 2, 3], '性别':['男', '男', '女'], '年龄':['17', '17', '16'], '总分':['285', '273', '240']})data_2# 将数据写入到【新成绩单.xlsx】工作簿中的【2 班】工作表data_2.to_excel('新成绩单.xlsx', sheet_name='2 班', index=False)# 打开【新成绩单.xlsx】工原创 2021-05-05 17:47:39 · 139 阅读 · 0 评论 -
python数据分析3
今日知识在正式开始本节案例的练习之前,我们先简单说明一下购物篮分析。2.1 分析方法说明:购物篮分析2.1.1 购物篮分析的概念购物篮分析是关联分析的一种重要应用:通过发现顾客在一次购买行为中放入购物篮的不同商品之间的关联,研究客户的购买习惯,从而辅助零售企业制定营销策略。本案例将使用最为经典的 Apriori 算法实现购物篮分析。我们用 X->Y 表示关联规则,回顾一下 Apriori 算法的三个重要概念:1)支持度(X->Y)表示同时购买 X、Y 的订单数占总订单数的比例,.原创 2021-05-05 17:46:51 · 361 阅读 · 0 评论 -
小福利,Python制作技术功效矩阵图
小福利,Python制作技术功效矩阵图#--coding:utf-8--import numpy as np #导入python的数值计算扩展包numpy,并重命名为npimport matplotlib.pyplot as plt #导入Python的绘图扩展包matplotlib,并重新命名为pltimport pandas as pd #导入python的数据处理扩展包pandas,并重命名为pd,该包用于读写excel文件plt.rc('font', family='SimHei',原创 2020-12-12 12:24:14 · 1179 阅读 · 0 评论 -
小福利,利用Python基于excel数据的可视化
大家好,我是天空之城,今天给大家带来小福利,利用Python基于excel数据的可视化采用的数据还是之前的爬虫获取的食物卡路里数据import pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings("ignore")# matplotlib画图常见参数设置mpl.rcParams["font.family"] = "SimHei"原创 2020-10-08 13:11:11 · 1977 阅读 · 3 评论 -
小福利,如何根据爬虫获得的食物卡路里、自身基础热量和运动消耗量计算总的热量差
大家好,我是天空之城,今天给大家带来如何根据爬虫获得的食物卡路里、自身基础热量和运动消耗量计算总的热量差,这里涉及到了爬虫知识,数据的清洗和处理,以及简单的逻辑判断和计算。总的思路就是用获取的食物热量减去自身的基础热量和运动消耗的热量得到人体剩余的热量差。第一步,首先是通过爬虫获得所有食物的卡路里数据import gevent,time,requestsfrom bs4 import BeautifulSoupfrom gevent.queue import Queuefrom gevent im原创 2020-10-07 17:01:54 · 1216 阅读 · 2 评论 -
数据分析与可视化----pandas与numpy模块的运用
#导入数据import numpy as np import pandas as pddf=pd.DataFrame(pd.read_csv('name.csv',header=1)) df=pd.DataFrame(pd.read_Excel('name.xlsx'))df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006], "date":pd.date_range('20130102', periods=6), "city":['Bei原创 2020-07-21 14:45:26 · 337 阅读 · 0 评论 -
python画图之matplotlib基础快速入门
matplotlib是数据分析三剑客之一其中需要理解figure(画布)、axes(坐标系)、axis(坐标轴)三个基本概念,画布就是创建一个画图的基本区域,坐标系就是一个画布中分割为多个小的画图区域,称为坐标系(例如一个画布中可以同时放三张图),而坐标轴就是具体每一个画图的小区域的x轴,y轴,z轴了。以下代码部分来自公众号‘数据分析与统计学之美’,号主也是相当的厉害,还经常分享小福利,有需要的可以加他。导入相关库import numpy as npimport pandas as pdim原创 2020-06-23 23:04:16 · 519 阅读 · 0 评论 -
数据分析与挖掘----pandas模块的介绍
大家好,我是天空之城,今天给大家带来,pandas模块的介绍1.掌握外部数据的读取;2.如何快速地认知数据的概览信息;3. 数据子集的筛选与清洗4.数据的汇总处理5.数据的合并与连接数据表的合并与连接...原创 2020-06-14 23:11:02 · 155 阅读 · 0 评论 -
数据分析与挖掘---匿名函数与自定义函数
大家好,我是天空之城,今天给大家带来,匿名函数与自定义函数。1.理解匿名函数的定义和用法;2.掌握自定义函数的使用技巧;作用:为了定制化的需求为了降低代码的重复编写定义匿名函数,可以用lambda关键字定义。通过lambda构造的函数可以没有名称,最大特点是“一气呵成”,即在自定义匿名函数时,所有代码可在一行内完成。lambda parameters : function expressionlambda为匿名函数的关键起始词parameters是函数的形参,多个参数之间用英文状态的原创 2020-06-14 18:14:12 · 154 阅读 · 0 评论 -
数据分析---for循环,while循环,正则表达式
大家好,我是天空之城,今天给大家带来,数据分析—for循环,while循环,正则表达式正则表达式正则表达式的定义正则表达式是指专门用于描述或刻画字符串内在规律的表达式。正则表达式的使用场景无法通过切片将字符串的子串返回借助于replace方法无法完成非固定值或非固定位置值的替换借助于split方法无法按照多种值实现字符串的分割匹配中括号中一个字符...原创 2020-06-14 15:02:15 · 626 阅读 · 1 评论 -
数据分析与挖掘---列表,元组,字典的构造与方法
大家好,我是天空之城一,列表的构造列表是一种存储数据的容器,借助于一对方括号构造列表对象。构成列表的元素没有任何限制,可以是任何类型的数据,也可以是任何结构的数据。列表属于序列对于序列而言,前文介绍的字符串索引|和切片的使用方法在列表上同样适用。列表是可变对象借助于列表的append和extend方法可以实现列表元素的增加,所不同的是append在列表尾部增加一个元素,而extend可以增加多个元素。列表的其他方法list. countlist. indexlist. sort二,元原创 2020-06-14 11:41:04 · 493 阅读 · 0 评论 -
数据分析与挖掘---字符串的构造和方法
大家好,我是天空之城,今天给大家带来,数据分析与挖掘—字符串的构造和方法1.字符串的构造单引号:字符串中含有双引号时;双引号:字符串中含有单引号时;三引号 :字符串中既含有单引号又含有双引号时 ,或需要多行显示时;2.字符串属于序列正向单索引|1、正向单索引指的是只获取列表中的某一个元素 ,并且是从左到右的方向索取对应位置下的元素,可以使用[index]表示。2、需要注意的是,索引值index是从0开始的,所以索引值与实际元素的位置正好差1。负向单索引1.负向单索引|是指在正向单索引的基原创 2020-06-14 08:22:36 · 494 阅读 · 0 评论