数数chat-CSDN博客

原创使用opencv批量人脸识别+裁图+设置分辨率（Python代码分享）

opencv批量人脸识别+裁图+设置分辨率（Python代码分享）

2023-03-02 18:24:52 2865 4

原创 Power BI可视化案例分享

分享几个Power BI可视化案例，案例是网上收集的。结尾还有一个综合案例。

2022-10-01 10:52:26 6647 17

转载 pyecharts实现全国热门旅游景点数据可视化

pyecharts可以展示动态图，在线报告使用比较美观，并且展示数据方便，鼠标悬停在图上，即可显示数值、标签等。

2022-08-31 10:55:15 1144

本文数据来源于亚马逊平台一服饰类卖家3个月的订单数据，这里用pyecharts做可视化展示。导入数据并处理import pandas as pdimport numpy as npfrom pyecharts import options as optsfrom pyecharts.globals import ThemeTypefrom pyecharts.charts import Line,Bar,Map,PictorialBar,Pie,WordCloud,Pagefrom pyech

2022-05-17 21:36:29 1248 2

原创 python脚本打包成exe，并设置定时执行

有时我们写完Python脚本，发给一些不会代码的人用时，需要教代码执行及安装环境，很不方便。本文就是解决这个问题，把脚本代码打包成一个双击即可执行的文件。同时，对于也介绍了定时执行操作的方法。

2022-04-23 17:28:06 2976 2

原创数据分析实战平台分享

本文对于评论区问的最多的数据来源问题，以及本人实战的资料来源做一个分享。一句话都是来源于网络。介绍几个数据分析学习平台，里面有许多免费的数据和代码平常写博文用的数据大部分都是从下面的平台下载的和鲸点击跳转链接https://www.heywhale.com/home/里面有数据集和案例的代码，大部分都是可以免费查看和下载，部分需要购买鲸币。kaggle英文机器学习竞赛平台，里面大量的数据和他人训练代码，评论及排名点击跳转链接https://www.kaggle.com/datasets

2022-04-11 23:08:24 1598

原创抖音数据分析（基于播放、点赞、投稿、背景音乐）--pyecharts可视化

项目说明数据是抖音9-21到10-30日间的交互记录，年份已做特殊处理（显示为2067）具体字段说明如下：·第一列没标（像是顺序ID，但是不连续，估计是数据集有被筛选处理过）·uid：用户id·user_city：用户所在城市·item_id：作品id·author id：作者id·item_city：作品城市·channel：观看到该作品的来源·finish：是否浏览完作品·like：是否对作品点赞·music id：音乐id·device：设备id·time：作品发布时间·

2021-12-02 17:32:09 11043 26

原创 Kaggle英国电商数据分析--k-means与RFM模型结合进行用户群体划分

此次的数据集来自kaggle的关于在线零售业务的交易数据，该公司主要销售礼品，大部分出售对象是面向批发商。数据链接数据集字段介绍数据包含541910行，8个字段，字段内容为：InvoiceNo: 订单编号，每笔交易有6个整数，退货订单编号开头有字母’C’。StockCode: 产品编号，由5个整数组成。Description: 产品描述。Quantity: 产品数量，有负号的表示退货InvoiceDate: 订单日期和时间。UnitPrice: 单价（英镑），单位产品的价格。Custom

2021-11-28 14:35:33 3516 4

翻译机器学习模型评估指标准确率、精确率、召回率、F1-Score、AUC、MAE、MSE、RMSE、R-Squared等

#来查看一下sklearn中所有的模型评估指标import sklearn.metricssorted(sklearn.metrics.SCORERS.keys())回归误差函数：平均绝对误差/相对误差(MAE)、平均绝对百分比误差(MAPE)、均方误差(MSE)、均方根（RMSE）、标准差(SD)、拟合优度(R2/R- Square)分类误差函数：0-1、对数、指数、合页其他度量：准确率（accuracy）、查准率/精准率（precision)、查全率/召回率(recall)、F1

2021-11-17 17:12:13 7857

翻译线性回归【机器学习笔记简摘】

定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。通用公式：h(w)=w1x1+w2x2+w3x3...+b=wTx+bh(w)=w_1x_1+w_2x_2+w_3x_3...+b=w^Tx+bh(w)=w1x1+w2x2+w3x3...+b=wTx+b线性回归当中主要有两种模型，一种是线性关系，另一种是非线性关系。线性回归的损失和优化1.损失最小二乘法2.优化

2021-11-04 17:00:00 1335

翻译支持向量机SVM--sklearn.svm.SVC【机器学习笔记简摘】

SVM 是一个非常优雅的算法，具有完善的数学理论，常用于数据分类，也可以用于数据的回归预测中，由于其优美的理论保证和利用核函数对于线性不可分问题的处理技巧，在上世纪90年代左右，SVM 曾红极一时。SVM囊括很多算法的功能：sklearn中的支持向量机类含义输入svm.LinearsvC线性支持向量分类[penalty, loss, dual, tol, C, …])svm.LinearsVR线性支持向量回归[epsilon, tol, C, loss, …])

2021-11-03 16:00:00 16635 2

翻译学习曲线learning_curve

确定交叉验证的针对不同训练集大小的训练和测试分数。一种用来判断训练模型的一种方法，通过观察绘制出来的学习曲线图，我们可以比较直观的了解到我们的模型处于一个什么样的状态，如：过拟合（overfitting）或欠拟合（underfitting）。交叉验证生成器将整个数据集拆分为训练和测试数据中的k次。具有不同大小的训练集的子集将用于训练估计器，并为每个训练子集大小和测试集计算分数。之后，对于每个训练子集大小，将对所有k次运行的得分进行平均。sklearn.model_selection.learnin

2021-11-03 11:15:00 2976 1

翻译交叉验证和网格搜索 GridSearchCV / cross_val_score

交叉验证1.定义：将拿到的训练集，分为训练集和验证集几折交叉验证（训练集被分为几部分）2.分割方式：训练集：训练集+验证集测试集：测试集3.为什么需要交叉验证为了让被评估的模型更加准确可信注意：交叉验证不能提高模型的准确率网格搜索超参数:sklearn中,需要手动指定的参数,叫做超参数网格搜索就是把这些超参数的值,通过字典的形式传递进去,然后进行选择最优值。GridSearchCV(暴力搜索选出最优参数)class sklearn.mod

2021-11-03 11:00:00 7716 1

翻译聚类算法-K-means 和 DBSCAN【机器学习笔记简摘】

简介决策树，随机森林，PCA和逻辑回归，他们虽然有着不同的功能，但却都属于“有监督学习”的一部分，即是说，模型在训练的时候，即需要特征矩阵X，也需要真实标签y。机器学习当中，还有相当一部分算法属于“无监督学习”，无监督的算法在训练的时候只需要特征矩阵X，不需要标签。而聚类算法，就是无监督学习的代表算法。聚类算法又叫做“无监督分类”，其目的是将数据划分成有意义或有用的组（或簇）。这种划分可以基于我们的业务需求或建模需求来完成，也可以单纯地帮助我们探索数据的自然结构和分布。比如在商业中，如果我们手头有大量的

2021-10-29 10:41:10 6274

翻译逻辑回归【机器学习笔记简摘】

简单来说，逻辑回归（Logistic Regression）是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。那么逻辑回归与线性回归是什么关系呢？逻辑回归（Logistic Regression）与线性回归（Linear Regression）都是一种广义线性模型（generalized linear model）。逻辑回归假设因变量 y 服从伯努利分布，而线性回归假设因变量 y 服从高斯分布。因此与线性回归有很多相同之处，去除Sigmoid映射函数的话，逻辑回归算法

2021-10-26 15:41:16 2390

翻译 PCA主成分分析【机器学习笔记简摘】

定义：高维数据转化为低维数据的过程，在此过程中可能会舍弃原有数据、创造新的变量作用：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。应用：回归分析或者聚类分析当中（非监督学习算法)降维是指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程。原理推导在一个二维平面内下图左一是上述点在特征2方向上的映射（扔掉特征1属性），右一是点在特征1方向的映射（扔掉特征2属性）。右一点和点的距离更为稀疏，差异更大，更有区分度。如果让选择一种方案把上述二维的数据降到一.

2021-10-23 21:53:16 728

翻译随机森林【机器学习笔记简摘】

在机器学习中，随机森林是一个包含多个决策树的分类器，是一种集合算法，并且其输出的类别是由个别树输出的类别的众数而定。随机森林 = Bagging + 决策树Bagging集成原理bagging集成过程1.采样：从所有样本里面，采样一部分2.学习：训练弱学习器3.集成：使用平权投票例子：把下面的圈和方块进行分类实现过程：1.采样不同数据集2.训练分类器3.平权投票，获取最终结果4.主要实现过程小结随机森林构造过程例如, 如果你训练了5个树, 其中有4个树的结果是True,

2021-10-21 22:00:31 2515

翻译什么是信息熵

熵当一件事情（宏观态）有多种可能情况（微观态）时,这件事情（宏观态）对某人（观察者）而言具体是哪种情况（微观态）的不确定性叫做熵（entropy）信息能够消除该人对这件事情（宏观态）不确定性的事物叫做信息。熵和信息数量相等，意义相反，获取信息意味着消除不确定性（熵）宏观态、微观态宏观态（macrostate）是不考虑内部细节的状态，而微观态（microstate）是考虑具体细节的状态。比如，生物是宏观态，动物和植物都是生物这个宏观态的一种微观态消除不确定性的信息有三种类型①调整概率②排除

2021-10-15 17:50:36 1472

翻译决策树【机器学习笔记简摘】

决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用。分类依据信息增益1948年香农提出了信息熵（Entropy）的概念。假如事件A的分类划分是（A1,A2,…,An），每部分发生的概率是(p1,p2,…,pn)，那信息熵定义为公式如下：（log是以2为底

2021-10-15 17:49:32 516

YPS的博客

原创使用opencv批量人脸识别+裁图+设置分辨率（Python代码分享）

原创 Power BI可视化案例分享

转载 pyecharts实现全国热门旅游景点数据可视化

原创 Pyecharts亚马逊订单可视化

原创 python脚本打包成exe，并设置定时执行

原创数据分析实战平台分享

原创抖音数据分析（基于播放、点赞、投稿、背景音乐）--pyecharts可视化

原创 Kaggle英国电商数据分析--k-means与RFM模型结合进行用户群体划分

翻译机器学习模型评估指标准确率、精确率、召回率、F1-Score、AUC、MAE、MSE、RMSE、R-Squared等

翻译线性回归【机器学习笔记简摘】

翻译支持向量机SVM--sklearn.svm.SVC【机器学习笔记简摘】

翻译学习曲线learning_curve

翻译交叉验证和网格搜索 GridSearchCV / cross_val_score

翻译聚类算法-K-means 和 DBSCAN【机器学习笔记简摘】

翻译逻辑回归【机器学习笔记简摘】

翻译 PCA主成分分析【机器学习笔记简摘】

翻译随机森林【机器学习笔记简摘】

翻译什么是信息熵

翻译决策树【机器学习笔记简摘】

翻译 K近邻(KNN)【机器学习笔记简摘】

原创某在线商店电子产品销售数据可视化分析

原创天猫订单数据分析

原创 python调用百度AI识别文字和表格

原创利用Python进行信用评分

原创京东平台小家电用户画像分析报告

原创深圳市“数据分析”岗位招聘分析—基于拉勾网

原创冰箱日订单数据分析报告(京东）

原创冰箱日订单数据分析(京东）python代码

空空如也

空空如也