自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 机器学习每周挑战——百思买数据

上面是关于字段的说明,由于这种数据属于电商类型的数据,我们一般会分析评分,折扣,成交价格等特征与交易数量之间的关系,我们还可以从用户回答来做文本分析等来分析商品的好坏,预测交易数量等,这里我就不进行分析了,感兴趣的可以试一试,我后面会更新电商评论的文本类型的分析。# esrb_rating ESRB评级("E for Everyone"(适合所有人)、"T for Teen"(适合青少年)、"M for Mature"(适合成年人)等等)# you_maight_also_need 你可能还需要。

2024-04-28 17:03:12 173

原创 机器学习模型——GBDT和Xgboost

GBDT(Gradient Boosting Decision Tree,简称GBDT)梯度提升决策树,是Gradient Boost 框架下使用较多的一种模型,且在GBDT中,其基学习器是分类回归树也就是CART,且使用的是GBDT这个算法还有一些其他的名字, MART(Multiple Additive Regression Tree),GBRT(Gradient Boost Regression Tree),Tree Net,Treelink等。

2024-04-08 22:29:55 976

原创 机器学习每周挑战——肥胖数据预测

数据的截图# 字段 说明# Gender 性别# Age 年龄# Height 身高# Weight 体重# family_history_with_overweight 家族肥胖史# FAVC 是否频繁食用高热量食物# FCVC 食用蔬菜的频次# NCP 食用主餐的次数# CAEC 两餐之间的食品消费:always(总是);frequently(经常);sometimes(有时候)# SMOKE 是否吸烟# CH2O 每日耗水量。

2024-04-06 19:45:47 1176 1

原创 机器学习模型——关联规则

Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过频繁项集生成和关联规则生成两个阶段来挖掘频繁项集。它的主要任务就是设法发现事物之间的内在联系。比如在常见的超市购物数据集,或者电商的网购数据集中,如果我们找到了频繁出现的数据集,那么对于超市,我们可以优化产品的位置摆放,对于电商,我们可以优化商品所在的仓库位置,达到节约成本,增加经济效益的目的。Apriori使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。

2024-04-06 12:12:02 739 1

原创 机器学习模型——K—Means算法

基于原型聚类(partitioning methods)K-Means算法,K-Mediods 算法基于层次聚类(hierarchical methods)、Hierarchical Clustering算法、BIRCH算法基于密度聚类(density-based methods)DBSCAN算法。

2024-04-05 23:07:25 712

原创 机器学习模型——集成算法(三)

这样,后续的弱分类器将更加关注难以分类的样本。:在最终的决策中,每个弱分类器的预测结果将按其权重进行加权,通过加权投票的方式得到最终的预测结果。对于新的输入样本,将其分别送入所有的弱分类器进行预测,然后将各个弱分类器的预测结果按照其权重进行加权求和,得到最终的预测结果。也就是说,在第N次迭代中,一共有N个弱学习器,其中N-1个是以前训练好的,其各种参数都不会改变,本次训练第N个学习器。其中弱学习器的关系是第N个弱学习器更可能分对前N-1个弱学习器没分对的数据,最终分类输出要看这N个分类器的综合效果。

2024-04-04 17:26:16 434

原创 机器学习模型——集成算法(二)

提升是一个迭代的过程,用于自适应地改变训练样本的分布,使得基分类器聚焦在那些很难分的样本上。因此Boosting结合了很多弱学习器来形成一个强学习器,单个模型表现不佳,但它们在数据集的某些部分表现很好。然后训练第一个基本分类器并用它来对训练集进行测试,对于那些分类错误的测试样例提高其权重 (实际算法中是降低分类正确的样例的权重)。第七步:创建另一个模型并对数据集进行预测(此模型尝试更正先前模型中的错误)。后续的模型依赖于之前的模型。第八步:类似地,创建多个模型,每个模型校正先前模型的错误。

2024-04-04 17:26:13 435

原创 机器学习模型——逻辑回归

目的分析:因为逻辑回归是为了解决二分类问题,即我们的目的应该是求取参数 w 和 b 使得 p(y l x) 对 0 类和 1 类的分类结果尽可能取最大值。然而我们定义损失函数时往往是为了最大化的达到我们的目的的同时使所付出的代价最小 (损失函数最小)。但是对于一个二分类问题,如果我们不仅想知道一个具体的样例是属于哪一类,而且还想知道该类属于某一类的概率多大,有什么办法呢?z的阈值处于(-∞,+ ∞),此时不能很好的给出属于某一类的概率,因为概率的范围在[0,1]之间,并且这个函数能够具有很好的可微分性。

2024-04-04 16:54:42 578

原创 机器学习每周挑战——信用卡申请用户数据分析

其他的列的缺失值较少,woe们可以填充,也可以删除,我觉得对于信用卡这种模型精度要求较严的,我们就删除,填充的值不是很准确,可能对模型造成一定的影响。# 由图可以看出,申请到信用卡的人数比没申请到信用卡的人数少,数据存在不均衡,因此我们建立模型时,要注意处理不均横的数据。# 根据数据集反映的客户画像和信用卡申请情况,如果你是该银行的风控或市场部门负责人,你会提出哪些战略思考或建议?正值意味着个人目前未就业。# 观察数据,我们可以发现,ID,电话号,邮箱这种特征对我们来说没有用

2024-04-03 20:46:15 2256 2

原创 机器学习模型——集成算法(一)

集成学习是一种机器学习方法,它通过组合多个弱学习器来形成一个强学习器,以提高预测性能。结合多个学习器:集成学习的核心思想是通过训练多个学习器(基学习器)并结合它们的预测结果来提高整体的预测性能。适用性广泛:集成学习可以应用于多种机器学习任务,包括分类、回归、特征选择和异常检测等领域。弱学习器与强学习器:在集成学习中,单个的基学习器通常被称为弱学习器,而通过集成这些弱学习器形成的综合模型则被称为强学习器。主要算法:集成学习的主要算法包括Bagging、Boosting和Stacking。

2024-03-31 17:13:58 814

原创 机器学习模型——随机森林

1. 从原始样本集m个样本中使用bootstrap (有放回的随机抽样)采样法选出m个样本;2. 从所有n个属性中随机选择K个属性 (若k=n则基决策树的构建与传统的决策树相同,若K=1则是选择一个属性用于划分),一般令k的值为log2n;3. 选择最佳分割属性 (ID3, C4.5, CART)作为节点创建决策树;4. 每颗决策树都进行最大程度地生长,且不进行剪枝;5. 重复以上4步S次, 建立S颗决策树,即形成随机森林;6. 在分类问题中通过多数投票法决定输出属于哪一分类;

2024-03-31 17:13:48 496

原创 机器学习——最优化模型

在给定的约束条件下,选择最优的参数和使得目标函数最大化/最小化。

2024-03-31 15:51:50 762

原创 机器学习每周挑战——旅游景点数据分析

至于简介和地址,缺失数据无关紧要,这里我们可以选择用无来填充,也可以用删除来处理,为了不破坏数据的完整性,这里我选择用无来填充。# 由于星级对我们问题的分析帮助很大,所以我们无法用删除,或者众数等方式填充,因此我们用无来填充,将其划分为一个新的类别。# 从销量可以看出北京,上海,江苏,四川,陕西,广东的销量较高,因此,我们着重分析这六个地方的景点评分。# 2、国民出游分析 (我们可以分析评分,城市,销量之间的关系 )# 2、国民出游分析 (我们可以分析评分,城市,销量之间的关系 )

2024-03-31 11:00:50 1767 1

原创 机器学习模型——SVM(支持向量机)

SVM,即支持向量机(Support Vector Machine),是一种用于分类和回归分析的机器学习算法。线性分类器:SVM的基础是一个线性分类器,这意味着它通过在特征空间中绘制一条直线来区分不同的类别。在二维空间中,这条线就是一条直线;在三维空间中,它变成了一个平面;在更高维的空间中,它是一个超平面。最大间隔:SVM的一个特点是它试图找到最佳的分界线,使得两个类别之间的间隔(距离)尽可能大。这个间隔被称为“最大边距”,这样做的目的是为了确保分类的准确性和可靠性。支持向量。

2024-03-30 16:52:57 933

原创 机器学习模型——决策树

决策树利用树形数据结构来展示决策规则和分类结果,它是一种归纳学习算法,可以将复杂数据转化为可以预测未知数据的模型。每一条从根节点到叶节点的路径都代表一条决策规则。

2024-03-30 16:52:53 1120

原创 机器学习模型——朴素贝叶斯

朴素贝叶斯是。朴素贝叶斯算法的核心思想是。它假设各个特征之间是相互独立的,尽管这个假设在实际应用中往往不成立,但这种简化通常能够带来计算上的便利,并且在实践中表现出不错的性能。

2024-03-28 10:19:48 300 1

原创 机器学习模型——KNN

KNN(K-Nearest Neighbor)就是k个最近的邻居的意思,即每个样本都可以用它最接近的k个邻居来代表。。核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。相似度的衡量标准一般为距离,即距离越近相似度越高,距离越远相似度越小。

2024-03-27 22:36:52 818

原创 机器学习每周挑战——人力资源分析

EducationField 专业领域:生命科学、医学、市场营销、技术、其他。# BusinessTravel 出差:很少、频繁、不出差。# EnvironmentSatisfaction 工作环境满意度。# YearsAtCompany 在公司工作年数。# JobSatisfaction 工作满意度。

2024-03-25 10:23:21 1285

原创 机器学习模型——非线性回归

升维是一种常用的处理非线性问题的方法,它通过将原始数据从低维空间映射到高维空间来增强模型的表达能力。我们可以看出,二维数据用一维直线很难去很好的拟合。升维里的degree设置的不易过大,否则容易造成维度灾难。升维后,拟合的线与原数据比较符合。将非线性问题转换为线性问题。

2024-03-23 17:14:58 351

原创 机器学习每周挑战——全球心理健康调查

心理健康治疗的接受情况:调查受访者是否接受过心理健康治疗与其它变量之间的关系,如家庭背景、个人特征、压力水平等,从而了解心理健康服务利用的情况及影响因素。# 心理健康与个人特征的关系:通过分析性别、职业、是否自雇等个人特征与心理健康指标(如压力、抑郁、焦虑等)之间的关系,探究不同人群在心理健康上的差异和共性。# 家庭背景与心理健康的关联:研究家庭精神健康史与个体心理健康状况之间的联系,探讨家庭因素对心理健康的影响。# Occupation 受访者的职业。

2024-03-23 15:20:54 927

原创 机器学习模型——线性回归

在一元线性回归中,损失函数通常采用最小二乘法的形式,其目的是找到一条直线(即回归线),使得所有数据点到这条直线的垂直距离的平方和最小。如果回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。是一种求局部最优的方法,在不断总结经验和优化的过程中,有三种不同的梯度下降的方法被应用到线性回归以及其他机器学习算法中。对于正规方程来说,我们化简的结果涉及到了矩阵的逆,但对于没有逆的矩阵则无法使用此方法。具体的线性回归的原理推荐大家李航老师是《统计学习方法》

2024-03-21 21:59:20 1357 1

原创 机器学习基础知识——基础概念

机器学习主要是研究如何使计算机从给定的数据中学习规律,即从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对位置或无法观测的数据进行预测。

2024-03-19 22:04:09 1088 1

原创 机器学系基础知识——降维

和传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,它广泛的用于图像识别,高维数据可视化等领域。在高维向量空间中,随着维度的增加,数据呈现出越来越稀疏的分布特点,增加后续算法的复杂度,而很多时候虽然数据维度较高,但是很多维度之间存在相关性,他们表达的信息有重叠。LDA是一种监督学习的降维技术,将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。

2024-03-18 23:07:44 365

原创 机器学习基础知识——特征工程(二)

机器学习的思想认为:特征和模型是分不开的,选择不同的特征训练出的模型也是不同的,特征选择就是模型选择的一部分。相对单变量特征选择方法(如Filter方法),基于模型的特征选择方法是另一类特征选择方法,也称为非单变量特征选择方法。因一些机器学习方法本身就具有对特征进行打分的机制,或者该学习方法很容易运用到特征选择任务中,例如回归模型,SVM,决策树,随机森林等等。该方法目前主流的两大类方法是:Wrapper(包装法)Embedded(嵌入法)

2024-03-18 22:29:18 744

原创 机器学习基础知识——特征工程(一)

来自维基百科定义: 特征选择(feature selection)也被称为变量选择、属性选择或属性子集选择。它是为了构建模型而选择相关特征子集的过程。特征选择是指从原始特征中挑选出一组最有代表性、分类性能好的特征。没有确定的步骤,更多是工程上的经验和权衡,一般需要耗费较多的时间和精力,掌握常用的经验和权衡方法,可以极大提高挖掘建模的效率和效果。给定不同的挖掘任务,需要的特征组合可能不同。

2024-03-17 14:55:32 1221 1

原创 机器学习每周挑战——科技公司裁员

plt.xlabel('公司发展阶段')plt.ylabel('裁员数量')plt.title('不同公司发展阶段的裁员数量')plt.show()从上图可以看出,处于“Acquired”(被收购)阶段的公司裁员数量最多,其次是“Post-IPO”(已上市)和“Series H”(第H轮)阶段的公司。这可能反映了这些阶段的公司可能面临的特定挑战,例如整合问题、市场压力或增长放缓。裁员数量在2023年达到最高峰,而在2020年相对较低。

2024-03-16 16:51:23 1367 1

原创 机器学习基础知识——离散化

百度词条把数据离散化定义为把无限空间中有限的个体映射到有限的空间中去,以提高算法的时空效率。换句话说,在不改变相对大小的情况下,对数据进行相应的缩小。离散化仅适用于只关注元素之间的大小关系而不关注元素数值本身的情况。离散化可以降低特征中的噪声节点,提升特征的表达能力。

2024-03-16 11:56:44 570 1

原创 机器学习基础知识——特征缩放

最大值最小值归一化标准化不同点将样本的特征值转换到同一量纲下,把数据映射到[0,1]或者[-1,1]区间对特征列进行数据处理,每个样本点都能对标准化产生影响改变了数据的原始分布不改变数据的原始分布相同点都是线性变换,通过对向量按比例压缩,然后进行平移都能减小由于量纲不同引起的误差最大值最小值归一化应用场景标准化应用场景1.不涉及距离度量2.不涉及协方差计算3。数据不符合正态分布在分类.聚类算法中1.需要使用距离来度量相似性2.需要使用PCA技术进行降维。

2024-03-14 22:43:36 426 1

原创 机器学习基础知识——标签化

例如:学校有三家食堂A,B,C这是属于无序变量,但是我们在数据预处理时,很容易将其映射为1,2,3.这样就为其赋予了有序的特征,因此我们可以将其映射为100,010,001.针对这种情况,独热编码就比较合适。但是如果分类特别多时,独热编码就会生成很多列来表示,会造成维度的扩张,且会产生稀疏矩阵,有用的信息并不多,在建模时,会造成过拟合。在数据挖掘中,一些算法可以直接计算分类变量,比如决策树模型,但是需多算法不能直接处理分类变量,他们的输入和输出都是数值型数据。缺点是:分类变量过多时,一个个指定确实烦。

2024-03-13 22:07:36 448

原创 机器学习基础知识——不均衡数据的处理

但是,对部分业务来说,数据不均衡时符合实际情况的,比如,银行收集客户欺诈行为数据,只有一小部分客户存在欺诈行为,这时就需要我们用异常检测模型来进行分析数据。重组法,比如,丰富类有1000条数据,而稀有类只有100条,那我们可以将丰富类数据划分为(100*10)个数据,10份数据分别于稀有类进行组合,然后进行训练,10份数据会得到不同的结果,我们取其平均值。过采样适用于小数据集,从稀有类中随机选择样本,在合并于稀有类(产生重复数据),以达到扩充稀有类占比的目的,在合并原有丰富类作为新的数据集。

2024-03-12 16:37:58 172 1

原创 机器学习基础知识——对于时间类型数据的处理

python中常用的datatime模块解决大多数的日期和时间的问题处理。如果解决更复杂的时间问题,比如:日期计算等,可以用dateutil模块来解决。日期加减法时,转换日期的方法必须统一,不统一不能进行加减。还可以用pandas模块中的方法进行处理。

2024-03-12 16:09:22 186

原创 机器学习每周挑战——水质检测

5.验证后发现随机森林非常契合,我们来评估一下这个模型,这里可以使用ROC曲线,AUC值等,混淆矩阵也可以,我这里以混淆矩阵为例。有想要数据集和完整代码的请私信我,(数据来源:kaggle社区)我们通过feature_importances_来获取代码。4.模型建立后,我们用交叉验证来验证随机森林的可用性。3.用随机森林模型进行拟合。7. 通过条形图来显示出来。

2024-03-10 21:16:00 455

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除