自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 大数据开发--基于Hive的航空公司客户价值分析案例

本文主要以利用Hive对数据进行处理,Hive 是一个适用于处理大规模数据的开源数据仓库工具,提供了 SQL-Like 查询语言和良好的容错性,可以方便地进行数据查询和分析。通过对航空公司客户数据进行清洗分析,并通过K-means聚类将客户划分成几种不同的群体,根据不同群体中的各个特征指标,进一步得出客户价值,企业可以对不同的客户采用相关的策略,实现公司利益最大化。

2024-06-10 10:59:25 1111 1

原创 pytorch安装,解决pytorch下载报错(ERROR: Exception: Traceback (most recent call last): File ...)、下载缓慢问题

在下载pytorch时,由于安装包可能较大,一般可能是2G左右,通常需要花费较长的时间才能下载完成,但在很多时候,下载到一般会出现ERROR: Exception: Traceback (most recent call last): File …的错误,下面将对此提供一些解决方案。

2024-06-02 11:00:26 1866 1

原创 迁移学习--如何训练自己的图像识别分类器

前面讲过一篇文章( 链接:VGG16),关于如何利用已训练的VGG16模型来识别图像,而本章内容主要围绕如何利用手上少量的数据,训练实现我们自己的图像分类模型,对已有的模型进行微调,得到我们想要的结果;同时,还会扩展对AlexNet与ResNet-18模型的微调实现。本文主要展示如何利用迁移学习训练模型,通过修改VGG-16网络层,实现蚂蚁与蜜蜂的分类,这能够让我们在拥有较少的数据集下,能够快速、有效、方便的建立网络模型,实现自己的图像识别分类器。

2024-04-27 23:39:46 925

原创 NLTK库安装方法大全

NLTK(Natural Language Toolkit)是自然语言处理(NLP)研究领域常用的一个Python库,由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块,至今已有超过十万行的代码。本文讲述如何安装下载nltk库以及其语料包,提供在线下载与手动下载(离线)两种方法,与其对应的下载安装流程。

2024-04-16 00:16:19 893

原创 图像分类与迁移学习--基于预训练VGG-16模型识别图像类别

本文内容将讲述如何利用已经训练好的VGG-16模型(基于ImageNet数据集)来自动识别图像类别,其中模型测试将使用GPU主机而非GPU主机实现;并介绍如何下载利用PyTorch框架、什么是VGG-16以及实现对图像的尺寸与颜色的变换。本章内容主要讲述如何利用已学习好的VGG-16模型进行图片的自动分类预测,可以发现利用迁移学习可以很方便的进行我们所需要的研究,而且结果也相当不错,对于VGG-16模型,还有VGG-19,读者如果感兴趣可以自己去练习实践。

2024-04-06 21:55:43 2002 1

原创 python随机森林分类案例

本文将介绍在数据分析中,一个完整的分析或挖掘的流程是怎么样的,指在帮助读者更好的了解掌握数据分析的整体步骤,通过一个利用随机森林分类器解决一个简单的分类问题:根据客户的年龄、性别和地理位置等特征来预测其购买行为(0表示未购买,1表示已购买),大致展示一个完整的分析流程。本文首先生成了一个模拟的客户数据集,包括年龄、性别、地理位置和购买历史等信息,选择随机森林分类器作为模型进行训练,并使用网格搜索找到最优超参数组合来优化模型。最后输出模型在测试集上的性能指标。

2024-03-20 20:49:11 1290 1

原创 python数据分析之数据标准化

一般所收集到的数据都需要进行数据标准化,因为在数据集中存在许多量纲不同的指标,比如在学生体质数据集中,包含身高(cm)、体重(kg)等身体指标,可以发现两组指标的数据量纲不一致,指标之间的性质、量纲、数量级、可用性等特征均存在差异,这就会导致我们无法直接用其分析研究对象的特征和规律,同时对模型的可靠性也会造成影响。其次数据标准化在深度学习中会被经常使用,其能够减少噪声的同时,加速模型收敛,提高模型的性能和稳定性。

2024-03-17 23:42:37 3386

原创 python数据分析之异常值处理

异常值是一种沉默的“杀手”,在你去除缺失值准备开始建模的时候,可能会导致你的模型效果不理想或者是十分糟糕,而又不清楚问题出现在哪,所以对于异常值的处理也是非常重要的,本文将讲解什么是异常值以及异常值的处理。异常值有很多,这里所介绍的是关于数值型的异常值,也可以称为“离散值”。异常值是指在数据集中与其他观测值明显不同的数据点或样本。它们可能是由于测量错误、数据损坏、数据录入错误、系统故障或真实的极端情况等原因而产生。

2024-03-16 22:38:59 2595

原创 python缺失值处理方法大全

在一般情况下,我们所收集得到的数据不可能是“完美无暇”的,通常会包含缺失值、异常值等让我们头疼的情况,对于数据挖掘或数据分析,花费时间最长的不是建模方面,反而是在数据清洗阶段。为了保证数据质量以及模型的可靠性,数据清洗就显得尤为重要,本文将重点讲解该如何处理缺失值。缺失值是指在数据集中某些位置或字段缺失数据或信息的情况。在实际的数据收集与记录的过程中,可能由于各种原因导致部分数据缺失。缺失值通常会用“NaN”、“None”或空字符串表示。缺失值一般会对数据分析与建模产生影响,所以需要对缺失值进行处理清洗。

2024-03-16 01:27:56 3059 1

原创 主成分分析(PCA)原理与特征选取

在许多领域中存在着大量数据特征,我们通常需要在海量的数据中提取出有价值的信息,例如如何在众多的数据特征中筛选或者是提取出高度有效的特征指标,而PCA就是一种能够解决此类问题的有效方法。PCA(Principal Component Analysis),即主成分分析方法,主成分顾名思义就是代表一个数据中或者是事件中最重要、最主要的成分。主成分分析是一种使用最广泛的数据降维算法。

2024-03-14 23:53:26 2515

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除