机器学习
文章平均质量分 83
CHRN晨
如今你的气质里,藏着你走过的路,读过的书和你爱过的人。
展开
-
【Python数据分析实战】豆瓣读书分析(含代码和数据集)
@[TOC]豆瓣一.导入数据二.数据清洗2.1清理null值2.2清洗出版时间列2.3转换评分及平均数量的数据类型2.4清洗页数列2.5清洗价格列2.6去除书名重复的数据2.7哪个出版社的书籍评分较高?2.8哪些书值得一读?2.9作者排名(10部作品及以上)三.数据分析与可视化3.1各年作品出版数量折线图3.2各价位作品数量直方图3.3各出版社出版作品数量条形图&评分折线图3.4作者作品评分条形图3.5作品评分树状图...原创 2021-12-29 18:05:36 · 15054 阅读 · 15 评论 -
【数据分析与挖掘实战】二手车价格预测1数据分析与特征构造详解(有数据集合代码)
一.题目概况数据集:点击下载根据给定的数据集,建立模型,二手汽车的交易价格。来自 Ebay Kleinanzeigen 报废的二手车,数量超过 370,000,包含 20 列变量信息,为了保证 比赛的公平性,将会从中抽取 10 万条作为训练集,5 万条作为测试集 A,5 万条作为测试集 B。同时会对名称、车辆类型、变速箱、model、燃油类型、品牌、公里数、价格等信息进行 脱敏。二.查看数据import pandas as pdimport numpy as nppath = './da原创 2021-12-12 21:28:40 · 4907 阅读 · 1 评论 -
【数据分析与挖掘实战】二手车价格预测3建模调参模型融合详解(有数据集合代码)
本题模型融合示例:数据集:链接:https://pan.baidu.com/s/1bbgT3bfNVcbQKEnpgBt4PQ提取码:au99import pandas as pdimport numpy as npimport warningsimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snswarnings.filterwarnings('ignore')%matplotlib inline原创 2021-12-12 20:37:03 · 1355 阅读 · 0 评论 -
【数据分析与挖掘实战】二手车价格预测2建模调参模型融合详解(有数据集合代码)
四. 建模调参4.1读取数据reduce_mem_usage 函数通过调整数据类型,帮助我们减少数据在内存中占用的空间import pandas as pdimport numpy as npimport warningswarnings.filterwarnings('ignore')def reduce_mem_usage(df): """ iterate through all the columns of a dataframe and modify the data typ原创 2021-12-12 20:31:14 · 987 阅读 · 0 评论 -
【数据分析与挖掘】基于Apriori算法的中医证型的关联规则挖掘(有数据集和代码)
中医药治疗乳腺癌有着广泛的适应证和独特的优势。从整体出发,调整机体气血、阴阳、脏腑功能的平衡,根据不同的临床证候进行辨证论治。确定“先证而治”的方向:即后续证侯尚未出现之前,需要截断恶化病情的哪些后续证侯。找出中医症状间的关联关系和诸多症状间的规律性,并且依据规则分析病因、预测病情发展以及为未来临床诊治提供有效借鉴。能够帮助乳腺癌患者手术后体质的恢复、生存质量的改善,有利于提高患者的生存机率。目前,中医治疗一般都是采用中医辨证的原则,结合临床医师的从医经验和医学指南进行诊断,然而此方法也存在一定原创 2021-12-12 15:37:56 · 5485 阅读 · 4 评论 -
【数据分析与挖掘】财政收入影响因素分析及预测模型(有数据集和代码)
案例背景在我国现行的分税制财政管理体制下,地方财政收人不仅是国家财政收入的重要组成部分,而且具有其相对独立的构成内容。如何有效的利用地方财政收入,合理的分配,来促进地方的发展,提高市民的收入和生活质量是每个地方政府需要考虑的首要问题。因此,对地方财政收人进行预测,不仅是必要的,而且也是可能的。科学、合理地预测地方财政收人,对于克服年度地方预算收支规模确定的随意性和盲目性,正确处理地方财政与经济的相互关系具有十分重要的意义。某市作为改革开放的前沿城市,其经济发展在全国经济中的地位举足轻重。目前,该市在财原创 2021-12-12 14:48:56 · 22642 阅读 · 10 评论 -
【数据分析与挖掘】天猫超市复购预测实战(含代码和数据集)
一.背景商家有时会在特定日期,例如Boxing-day,黑色星期五或是双十一(11月11日)开展大型促销活动或者发放优惠券以吸引消费者,然而很多被吸引来的买家都是一次性消费者,这些促销活动可能对销售业绩的增长并没有长远帮助,因此为解决这个问题,商家需要识别出哪类消费者可以转化为重复购买者。通过对这些潜在的忠诚客户进行定位,商家可以大大降低促销成本,提高投资回报率(Return on Investment, ROI)。众所周知的是,在线投放广告时精准定位客户是件比较难的事情,尤其是针对新消费者的定位。不过,原创 2021-12-09 17:32:46 · 21414 阅读 · 14 评论 -
【数据分析与挖掘实战】金融风控之贷款违约预测详解2(有代码和数据集)
本文接着上一篇博客,如果您未阅读上篇博客,请点击【数据分析与挖掘实战】金融风控之贷款违约预测详解1(有代码和数据集)七.建模和调参7.1模型相关原理介绍由于相关算法原理篇幅较长,本文推荐了一些博客供初学者们进行学习。7.1.1 逻辑回归模型7.1.2 决策树模型7.1.3GBDT模型7.1.4 XGBoost模型7.1.5 LightGBM模型7.1.6 Catboost模型7.2 模型对比与性能评估7.2.1逻辑回归优点训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;原创 2021-12-09 12:09:30 · 3706 阅读 · 3 评论 -
【数据分析与挖掘】基于LightGBM,XGBoost,逻辑回归的分类预测实战:英雄联盟数据(有数据集和代码)
机器学习-LightGBM一.LightGBM的介绍与应用1.1 LightGBM的介绍1.2 LightGBM的应用二.数据集来源三.基于英雄联盟数据集的LightGBM分类实战Step1:函数库导入Step2:数据读取/载入Step3:数据信息简单查看Step4:可视化描述Step5:利用 LightGBM 进行训练与预测Step7: 利用 LightGBM 进行特征选择Step8: 通过调整参数获得更好的效果四.总结本次我们选择英雄联盟数据集进行LightGBM的场景体验。英雄联盟是2009年美国拳原创 2021-12-08 12:40:26 · 2492 阅读 · 0 评论 -
【机器学习】数据预处理类型总结
数据预处理总结基于sklearn包1、标准化:去均值和方差按比例缩放(scale,StandardScaler)1.1将特征缩放至特定范围内(MinMaxScaler,MaxAbsScaler)1.2缩放稀疏矩阵数据2.归一化(Normalizer)3.类别特征编码(OneHotEncoder)4.离散化4.1K-bins离散化(KBinsDiscretizer )4.2特征二值化(Binarizer)5.缺失值补全5.1单变量插补全(SimpleImputer)5.1.1平均数替换5.1.2众数替换5.2原创 2021-12-04 17:29:32 · 1324 阅读 · 0 评论 -
机器学习之Logistic回归简单实例
logistic是一种线性分类器,针对的是线性可分问题。利用logistic回归进行分类的主要思想是:根据现有的数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集,因此,logistic训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化方法.例如:在两个类的情况下,函数输出0或1,这个函数就是二值型分类器的sigmoid函数; ...原创 2021-01-04 14:11:19 · 1646 阅读 · 1 评论 -
机器学习之线性回归简单实例
线性回归简介:线性回归目标是提取输入变量和输出变量的关联线性模型。线性回归属于有监督学习,有监督学习的基本架构和框架如下:1.准备训练数据,可以是文本数据、图像数据和音频数据2.然后抽取所需要的特征形成特征向量。3.把这些特征向量已经对应的目标一起导入机器学习算法模型中,训练出一个预测模型。4.采用同样的特征抽取方法作用与新数据,得到用于测试的特征向量。5.最后使用预测模型对这些待测试的特征向量进行预测得到结果。线性回归也不例外,下面运用一个简单的实例来了解线性回归。(1)导入数据#线性回原创 2021-01-04 13:24:08 · 1422 阅读 · 0 评论