
04_机器学习
文章平均质量分 55
civilpy
缺什么,补什么!
展开
-
Python分析无人驾驶汽车在桂林市文旅行业推广的问卷
使用Pandas的crosstab方法创建交叉表,分析不同人群(按照'age_group')的交通选择偏好('preferred_transport')。通过chi2_contingency方法进行卡方检验,计算卡方值(chi2)、p值(p)、自由度(dof)和期望频数(expected)。通过LDA模型的fit_transform方法拟合并转换文本数据,将其应用到data_clean['comments']列中。对数据进行清洗,通过dropna()方法移除包含缺失值的行,存储在data_clean中。原创 2024-03-19 13:00:00 · 507 阅读 · 0 评论 -
Python主成分分析和聚类分析
主成分分析(PCA)是一种常用的数据降维技术,通过线性变换将原始数据转换为一组各维度之间不相关的新变量,称为主成分。聚类分析则是一种将数据集中的对象划分为若干个类别的方法,使得同一类别内的对象相似度较高,不同类别之间的相似度较低。原创 2024-03-17 17:39:20 · 551 阅读 · 0 评论 -
Python分析两个数据集车辆轨迹的相似度
在这个问题中,我们需要使用Python来计算两个数据集的车辆轨迹相似度,并进行数据集的车辆匹配。为了实现这一目标,我们可以使用轨迹相似度计算的方法,比如动态时间规整(Dynamic Time Warping, DTW)算法来比较两个轨迹的相似度。同时,我们需要使用数据处理和匹配算法来对两个数据集的车辆信息进行匹配。原创 2024-03-15 14:39:51 · 735 阅读 · 0 评论 -
【BXZ_231228】使用Sklearn Kmeans及RFM对淘宝客户进行分类关怀
【代码】【BXZ_231228】使用Sklearn Kmeans及RFM对淘宝客户进行分类关怀。原创 2023-12-28 12:58:56 · 699 阅读 · 0 评论 -
【SXC_231228】使用Sklearn决策树分析商品评价有用性
【代码】【SXC_231228】使用Sklearn决策树分析商品评价有用性。原创 2023-12-28 12:55:13 · 411 阅读 · 0 评论 -
机器学习中异常值的处理方式
Grubbs 检验的阈值通过计算得到,如果数据中的值超过这个阈值,就被认为是异常值。3Sigma、Z-Score、box plot、Grubbs假设检验四种分布异常值检验方法可以帮助在数据中识别异常值,而在机器学习中,异常值的检测对模型性能和结果的准确性具有重要影响。原理:通过计算数据的均值和标准差,然后确定在正态分布中距离均值3个标准差之外的数据点,将其视为异常值。数据点落在箱线图之外的被认为是异常值。对机器学习的作用:可以在数据预处理阶段使用,帮助剔除明显偏离正常范围的数据点,提高模型的鲁棒性。原创 2023-12-27 14:52:21 · 1525 阅读 · 0 评论 -
机器学习中字符特征的处理方式
总体来说,哑变量和标签编码都可以提高模型的准确度,具体选择哪种方法取决于分类变量是否有明确的先后顺序或类别之间是否有数量关系。对模型准确度的影响:标签编码与哑变量类似,都可以提高模型的准确度。但如果分类变量的类别过多,可能会导致模型复杂度过高,从而影响模型的泛化能力。对模型准确度的影响:使用哑变量可以提高模型的准确度,因为在模型中可以识别出不同种类的水果之间的差异。但如果分类变量的类别过多,可能会导致模型复杂度过高,从而影响模型的泛化能力。哑变量适用于分类变量有明确的先后顺序或类别之间没有数量关系的场景。原创 2023-12-27 14:51:51 · 800 阅读 · 0 评论 -
【CBY_231225】Kmeans聚类及LSTM时间序列预测
【代码】【CBY_231225】Kmeans聚类及LSTM时间序列预测。原创 2023-12-25 09:27:06 · 608 阅读 · 0 评论 -
【MVT_1703230471】基于Python NLTK分词、词云、LDA主题分类及GPT情感分类
4-3 按outcame聚合第四列。4.2 按年聚和第三列实现词云。5-4 open Al情感分析。5.2 反向查询主题词。4.1 第2列柱状图。原创 2023-12-22 15:44:33 · 1140 阅读 · 0 评论 -
【DWJ_1703225514】基于Sklearn航空公司服务质量分析
【代码】【DWJ_1703225514】基于Sklearn航空公司服务质量分析。原创 2023-12-22 14:45:18 · 794 阅读 · 0 评论 -
机器学习之CPA降维
主成分分析降维from sklearn.datasets import load_irisfrom sklearn.decomposition import PCAimport pylab as plfrom itertools import cycleiris = load_iris() # 再熟悉不过的数据集鸢尾花numSamples, numFeatures = iris.data.shapeprint(numSamples)print(numFeatures) # 花萼长度,原创 2020-12-30 16:40:23 · 627 阅读 · 0 评论 -
Python机器学习之数据探索可视化库yellowbrick-tutorial
背景介绍 从学sklearn时,除了算法的坎要过,还得学习matplotlib可视化,对我的实践应用而言,可视化更重要一些,然而matplotlib的易用性和美观性确实不敢恭维。陆续使用过plotly、seaborn,最终定格在了Bokeh,因为它可以与Flask完美的结合,数据看板的开发难度降低了很多。 前阵子看到这个库可以较为便捷的实现数据探索,今天得空打算学习一下。原本访问的是英文...原创 2019-08-20 16:49:21 · 576 阅读 · 0 评论 -
Python机器学习之数据探索可视化库yellowbrick
背景介绍 从学sklearn时,除了算法的坎要过,还得学习matplotlib可视化,对我的实践应用而言,可视化更重要一些,然而matplotlib的易用性和美观性确实不敢恭维。陆续使用过plotly、seaborn,最终定格在了Bokeh,因为它可以与Flask完美的结合,数据看板的开发难度降低了很多。 前阵子看到这个库可以较为便捷的实现数据探索,今天得空打算学习一下。原本访问的是英文...原创 2019-08-20 16:19:04 · 851 阅读 · 0 评论 -
Python 中文文本识别+图片表格识别
from PIL import ImagePytesseract-windows安装Tesseract的github地址:tesseract-ocr/tesseractTesseract的安装:(1)Tesseract本身没有windows的安装包,不过它指定了一个第三方的封装的windows安装包,在其wiki上有说明,大家可直接到这个地址进行下载: Index of /tesser...原创 2019-07-05 08:23:31 · 4964 阅读 · 2 评论 -
20190521单一图片增强
#-*- coding: UTF-8 -*- from PIL import Imagefrom PIL import ImageEnhance#原始图像image = Image.open('EhanceIMG/1.jpg')# image.show() #亮度增强enh_bri = ImageEnhance.Brightness(image)brightness = 1...原创 2019-06-27 13:49:39 · 221 阅读 · 0 评论 -
Python数据分析及可视化实例之机器学习简介
系列文章总目录:Python数据分析及可视化实例目录最后,别只收藏不关注哈原创 2019-06-27 11:49:21 · 515 阅读 · 0 评论