自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

YPS的博客

数据分析

  • 博客(28)
  • 收藏
  • 关注

原创 使用opencv批量人脸识别+裁图+设置分辨率(Python代码分享)

opencv批量人脸识别+裁图+设置分辨率(Python代码分享)

2023-03-02 18:24:52 2446 4

原创 Power BI可视化案例分享

分享几个Power BI可视化案例,案例是网上收集的。结尾还有一个综合案例。

2022-10-01 10:52:26 5239 15

转载 pyecharts实现全国热门旅游景点数据可视化

pyecharts可以展示动态图,在线报告使用比较美观,并且展示数据方便,鼠标悬停在图上,即可显示数值、标签等。

2022-08-31 10:55:15 927

原创 Pyecharts亚马逊订单可视化

本文数据来源于亚马逊平台一服饰类卖家3个月的订单数据,这里用pyecharts做可视化展示。导入数据并处理import pandas as pdimport numpy as npfrom pyecharts import options as optsfrom pyecharts.globals import ThemeTypefrom pyecharts.charts import Line,Bar,Map,PictorialBar,Pie,WordCloud,Pagefrom pyech

2022-05-17 21:36:29 1033 1

原创 python脚本打包成exe,并设置定时执行

有时我们写完Python脚本,发给一些不会代码的人用时,需要教代码执行及安装环境,很不方便。本文就是解决这个问题,把脚本代码打包成一个双击即可执行的文件。同时,对于也介绍了定时执行操作的方法。

2022-04-23 17:28:06 2454 2

原创 数据分析实战平台分享

本文对于评论区问的最多的数据来源问题,以及本人实战的资料来源做一个分享。一句话都是来源于网络。介绍几个数据分析学习平台,里面有许多免费的数据和代码平常写博文用的数据大部分都是从下面的平台下载的和鲸点击跳转链接https://www.heywhale.com/home/里面有数据集和案例的代码,大部分都是可以免费查看和下载,部分需要购买鲸币。kaggle英文机器学习竞赛平台,里面大量的数据和他人训练代码,评论及排名点击跳转链接https://www.kaggle.com/datasets

2022-04-11 23:08:24 1407

原创 抖音数据分析(基于播放、点赞、投稿、背景音乐)--pyecharts可视化

项目说明数据是抖音9-21到10-30日间的交互记录,年份已做特殊处理(显示为2067) 具体字段说明如下:·第一列没标(像是顺序ID,但是不连续,估计是数据集有被筛选处理过)·uid:用户id·user_city:用户所在城市·item_id:作品id·author id:作者id·item_city:作品城市·channel:观看到该作品的来源·finish:是否浏览完作品·like:是否对作品点赞·music id:音乐id·device:设备id·time:作品发布时间·

2021-12-02 17:32:09 9745 25

原创 Kaggle英国电商数据分析--k-means与RFM模型结合进行用户群体划分

此次的数据集来自kaggle的关于在线零售业务的交易数据,该公司主要销售礼品,大部分出售对象是面向批发商。数据链接数据集字段介绍数据包含541910行,8个字段,字段内容为:InvoiceNo: 订单编号,每笔交易有6个整数,退货订单编号开头有字母’C’。StockCode: 产品编号,由5个整数组成。Description: 产品描述。Quantity: 产品数量,有负号的表示退货InvoiceDate: 订单日期和时间。UnitPrice: 单价(英镑),单位产品的价格。Custom

2021-11-28 14:35:33 3060 4

翻译 机器学习模型评估指标准确率、精确率、召回率、F1-Score、AUC、MAE、MSE、RMSE、R-Squared等

#来查看一下sklearn中所有的模型评估指标import sklearn.metricssorted(sklearn.metrics.SCORERS.keys())回归误差函数:平均绝对误差/相对误差(MAE)、平均绝对百分比误差(MAPE)、均方误差(MSE)、均方根(RMSE)、标准差(SD)、拟合优度(R2/R- Square)分类误差函数:0-1、对数、指数、合页其他度量:准确率(accuracy)、查准率/精准率(precision)、查全率/召回率(recall)、F1

2021-11-17 17:12:13 6856

翻译 线性回归【机器学习笔记简摘】

定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。通用公式:h(w)=w1x1+w2x2+w3x3...+b=wTx+bh(w)=w_1x_1+w_2x_2+w_3x_3...+b=w^Tx+bh(w)=w1​x1​+w2​x2​+w3​x3​...+b=wTx+b线性回归当中主要有两种模型,一种是线性关系,另一种是非线性关系。线性回归的损失和优化1.损失 最小二乘法2.优化

2021-11-04 17:00:00 1060

翻译 支持向量机SVM--sklearn.svm.SVC【机器学习笔记简摘】

SVM 是一个非常优雅的算法,具有完善的数学理论,常用于数据分类,也可以用于数据的回归预测中,由于其优美的理论保证和利用核函数对于线性不可分问题的处理技巧, 在上世纪90年代左右,SVM 曾红极一时。SVM囊括很多算法的功能:sklearn中的支持向量机类含义输入svm.LinearsvC线性支持向量分类[penalty, loss, dual, tol, C, …])svm.LinearsVR线性支持向量回归[epsilon, tol, C, loss, …])

2021-11-03 16:00:00 14059 2

翻译 学习曲线learning_curve

确定交叉验证的针对不同训练集大小的训练和测试分数。一种用来判断训练模型的一种方法,通过观察绘制出来的学习曲线图,我们可以比较直观的了解到我们的模型处于一个什么样的状态,如:过拟合(overfitting)或欠拟合(underfitting)。交叉验证生成器将整个数据集拆分为训练和测试数据中的k次。 具有不同大小的训练集的子集将用于训练估计器,并为每个训练子集大小和测试集计算分数。 之后,对于每个训练子集大小,将对所有k次运行的得分进行平均。sklearn.model_selection.learnin

2021-11-03 11:15:00 2667 1

翻译 交叉验证和网格搜索 GridSearchCV / cross_val_score

交叉验证1.定义:将拿到的训练集,分为训练集和验证集    几折交叉验证(训练集被分为几部分)2.分割方式:    训练集:训练集+验证集     测试集:测试集3.为什么需要交叉验证    为了让被评估的模型更加准确可信注意:交叉验证不能提高模型的准确率网格搜索  超参数:sklearn中,需要手动指定的参数,叫做超参数  网格搜索就是把这些超参数的值,通过字典的形式传递进去,然后进行选择最优值。GridSearchCV(暴力搜索选出最优参数)class sklearn.mod

2021-11-03 11:00:00 6261 1

翻译 聚类算法-K-means 和 DBSCAN【机器学习笔记简摘】

简介决策树,随机森林,PCA和逻辑回归,他们虽然有着不同的功能,但却都属于“有监督学习”的一部分,即是说,模型在训练的时候,即需要特征矩阵X,也需要真实标签y。机器学习当中,还有相当一部分算法属于“无监督学习”,无监督的算法在训练的时候只需要特征矩阵X,不需要标签。而聚类算法,就是无监督学习的代表算法。聚类算法又叫做“无监督分类”,其目的是将数据划分成有意义或有用的组(或簇)。这种划分可以基于我们的业务需求或建模需求来完成,也可以单纯地帮助我们探索数据的自然结构和分布。比如在商业中,如果我们手头有大量的

2021-10-29 10:41:10 5639

翻译 逻辑回归【机器学习笔记简摘】

简单来说, 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。那么逻辑回归与线性回归是什么关系呢?逻辑回归(Logistic Regression)与线性回归(Linear Regression)都是一种广义线性模型(generalized linear model)。逻辑回归假设因变量 y 服从伯努利分布,而线性回归假设因变量 y 服从高斯分布。 因此与线性回归有很多相同之处,去除Sigmoid映射函数的话,逻辑回归算法

2021-10-26 15:41:16 2124

翻译 PCA主成分分析【机器学习笔记简摘】

定义:高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量作用:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。应用:回归分析或者聚类分析当中(非监督学习算法)降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。原理推导在一个二维平面内下图左一是上述点在特征2方向上的映射(扔掉特征1属性),右一是点在特征1方向的映射(扔掉特征2属性)。右一点和点的距离更为稀疏,差异更大,更有区分度。如果让选择一种方案把上述二维的数据降到一.

2021-10-23 21:53:16 513

翻译 随机森林【机器学习笔记简摘】

在机器学习中,随机森林是一个包含多个决策树的分类器,是一种集合算法,并且其输出的类别是由个别树输出的类别的众数而定。随机森林 = Bagging + 决策树Bagging集成原理bagging集成过程1.采样:从所有样本里面,采样一部分2.学习:训练弱学习器3.集成:使用平权投票例子:把下面的圈和方块进行分类实现过程:1.采样不同数据集2.训练分类器3.平权投票,获取最终结果4.主要实现过程小结随机森林构造过程例如, 如果你训练了5个树, 其中有4个树的结果是True,

2021-10-21 22:00:31 1270

翻译 什么是信息熵

熵当一件事情(宏观态)有多种可能情况(微观态)时,这件事情(宏观态)对某人(观察者)而言具体是哪种情况(微观态)的不确定性叫做熵(entropy)信息能够消除该人对这件事情(宏观态)不确定性的事物叫做信息。熵和信息数量相等,意义相反,获取信息意味着消除不确定性(熵)宏观态、微观态宏观态(macrostate)是不考虑内部细节的状态,而微观态(microstate)是考虑具体细节的状态。比如,生物是宏观态,动物和植物都是生物这个宏观态的一种微观态消除不确定性的信息有三种类型①调整概率②排除

2021-10-15 17:50:36 1316

翻译 决策树【机器学习笔记简摘】

决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。分类依据信息增益1948年香农提出了信息熵(Entropy)的概念。假如事件A的分类划分是(A1,A2,…,An),每部分发生的概率是(p1,p2,…,pn),那信息熵定义为公式如下:(log是以2为底

2021-10-15 17:49:32 421

翻译 K近邻(KNN)【机器学习笔记简摘】

简介简单是说: 在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别。API官网链接apiclass sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, *, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None)参数说明:n_neighb

2021-10-15 17:48:21 204

原创 某在线商店电子产品销售数据可视化分析

一、项目背景目的:通过分析销售数据可以帮助商家了解在线销售业务的消费情况,进而分析顾客消费数据来分析顾客的消费行为和顾客特征,更好的为用户推荐相匹配的商品。工具:Python、PowerBi数据来源:https://www.heywhale.com/mw/project/60ceb85d056f570017c0ae42/dataset字段说明:event_time -购买时间order_id -订单编号product_id -产品编号category_id -产品的类别IDcategory

2021-10-11 22:20:47 3895 2

原创 天猫订单数据分析

项目说明数据说明本数据集共收集了发生在一个月内的28010条数据,包含以下字段:[‘订单编号’, ‘总金额’, ‘买家实际支付金额’, ‘收货地址’, ‘订单创建时间’, '订单付款时间 ', ‘退款金额’]1.订单实际支付金额 = 订单总金额 - 退款金额2.若付款时间为NAN,则此订单未支付。未支付订单则退款金额为0。分析目的1、订单每个环节的转化情况2、订单成交的时间特点3、各区域订单情况思维导图数据预处理import numpy as npimport pandas as

2021-10-04 21:37:00 1597 1

原创 python调用百度AI识别文字和表格

python调用百度AI识别文字和表格获取账户信息1、需要先注册百度AI,获得ID和密钥。百度AI社区关于注册的详细说明:https://ai.baidu.com/forum/topic/show/867951只需走到“1.6 获取密钥”即可。然后记录下自己的APP_ID、API_KEY、SECRET_KEY,就可以开始了。界面如下。每个ID每天可免费识别200次关于免费额度的详细说明连接2、安装 百度AI库。电脑运行cmd, 输入 “pip install baidu-aip”文字识别gl

2021-10-02 18:24:56 2017 2

原创 利用Python进行信用评分

项目简介信用风险:未履行合同的义务而造成的经济损失的风险。评分卡:以分数的形式来衡量风险几率的一种手段,分数越高越安全。数据来源:Kaggle有15万条的样本数据,– 基本属性:包括了借款人当时的年龄。– 偿债能力:包括了借款人的月收入、负债比率。– 信用往来:两年内35-59天逾期次数、两年内60-89天逾期次数、两年内90天或高于90天逾期的次数。– 财产状况:包括了开放式信贷和贷款数量、不动产贷款或

2021-09-30 18:41:31 2486

原创 京东平台小家电用户画像分析报告

一、项目背景由于近段时间小家电类目的订单数量、产品浏览量、搜索数量等指标均有所下降,现在计划进行一次促销活动,活动前希望能针对小家电的用户特征给出一些建议。数据:有两个表,user_info用户信息,order_d订单信息,从数据库提取了8月13日~8月19日一周的订单数据。字段说明如下:分析思路一场促销活动必然包含以下几个部分:● 促销活动的受众 -> 用户的基本属性● 促销活动的时间 -> 用户的购物行为属性● 促销活动的产品 -> 用户的偏好属性从这些角度去勾勒

2021-09-14 14:16:35 3432 8

原创 深圳市“数据分析”岗位招聘分析—基于拉勾网

项目说明该项目的数据来源于2021年9月11日在拉勾网搜索“数据分析”,爬取的岗位信息。通过这些数据,主要分析以下几个问题:1、各区对数据分析岗位的需求情况2、各行业对数据分析岗位的需求情况3、数据分析岗位的薪资状况4、工作经验/学历与薪资的关系5、不同规模的公司对工作经验的要求以及提供的薪资水平各区需求情况岗位需求绝大部分集中在南山区与福田区,这也于这些地区企业数量多有关各行业的需求情况排名前4的行业依次为:科技金融、数据服务、游戏、工具类产品,约占总需求的53%排名前10的公司约

2021-09-12 23:03:06 550 1

原创 冰箱日订单数据分析报告(京东)

数据来源2020年5月25日京东大家电-家用电器-冰箱订单数据,按10%抽样,约22MB(70k+条数据)订单数据分析的基本思路宏观分析宏观把握订单的总体特征订单总量:61535 GMV:60860859元总用户数:39322 销售额:46223259元通过分布图可以看到,约80%的订单在3k以下,超过70%的冰箱价格低于2K的。冰箱用户主力消费价格在2K以下,因此在进行冰箱广告推广时,可以优先考虑价格低于2K的冰

2021-09-10 23:03:24 1142

原创 冰箱日订单数据分析(京东)python代码

冰箱日订单数据分析(京东)python代码数据2020年5月25日京东大家电-家用电器-冰箱订单数据,按10%抽样,约22MB(70k+条数据)包含信息:user_log_acct --用户账号parent_sale_ord_id --父订单号sale_ord_id --订单号sale_ord_tm --订单时间sale_ord_dt --订单日期item_sku_id --商品skuitem_name --商品名称brandname --品牌名称sale_qtty --商品数量i

2021-09-10 22:05:09 1969 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除