自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (3)
  • 收藏
  • 关注

原创 spark-实操笔记

获取当前日期 def getNowDate():String={ var now = new Date() var dateFormat = new SimpleDateFormat("yyyy-MM-dd") var today = dateFormat.format( now ) today }获取以前的日期 def getPreda...

2018-08-24 17:10:43 238

转载 常见用户行为分析模型解析

具体参见-神策数据行为分析常用名词维度 维度描述的是一个事物身上所具备的特征或属性指标 指标,即具体的数值。比如访客、页面浏览量、停留时长都属于常见的指标展示和点击 展示,指页面上元素的曝光次数。点击,指页面元素被用户点击的次数访客 英文为 Visitor,通俗解释为访问网站或 App 的人。前面加上 Unique 后,即我们平常说的 UV,唯一身份访客。 对于数据统计工...

2018-08-24 15:56:36 8971

原创 spark常见错误

spark常见错误刚开始接触spark总是遇到一些问题,后续会继续补充。 1. Exception in thread “main” org.apache.spark.sql.AnalysisException: Detected cartesian product for LEFT OUTER join between logical plans LocalLimit 21 出现错误,这...

2018-08-24 14:54:13 10937 2

决策树分类算法在课程成绩预测中的应用

本研究基于决策树分类算法,探索了其在课程成绩预测中的应用。通过收集某课程学生的课程学习数据和期末考试成绩数据,我们构建了一个数据集,包含学号、姓名、性别、出勤率、小组讨论、课堂互动、课后作业以及期末成绩等8个变量。首先,对数据进行了预处理和描述统计分析,然后使用决策树模型进行建模和预测。在模型构建过程中,我们采用了过采样技术(SMOTE)处理数据不平衡问题,并通过网格搜索法(GridSearchCV)对模型进行参数调优。实验结果表明,经过调优的决策树模型在课程成绩预测方面取得了良好的效果。在测试集上,模型的准确率达到了0.737,相较于调优前的模型有了显著提升。同时,通过对模型的特征重要性分析,我们发现参与指数和课后作业对于成绩预测起到了关键作用,而性别、小组讨论和课堂互动的影响相对较小。综上所述,基于决策树模型的课程成绩预测研究为教育决策提供了有价值的信息和指导,并具有进一步优化预测准确性的潜力。

2023-07-08

大数据在金融领域的应用 -基于XGBoost保险反欺诈预测

本文以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈[1]问题在近年来不断增加,对保险行业和社会民众造成了严重的经济损失和信任危机。为了解决这一问题,利用数据挖掘和机器学习方法来识别保险欺诈行为并预测潜在的欺诈者成为关键。通过分析和挖掘数据集中的特征和模式,我们可以揭示与保险欺诈相关的因素,例如个人背景、历史记录和行为模式等。基于这些发现,构建一个准确可靠的机器学习模型可以预测个体从事保险欺诈的概率。解决这些问题将为保险行业提供有效的风控手段,保障社会民众的利益和安全,提高整个保险体系的可持续发展和社会信任度。在本次研究中,我们基于XGBoost算法,利用保险反欺诈数据集进行了保险欺诈行为的预测。通过完成这个研究项目,我们熟悉了一套完整的数据挖掘流程,包括数据预处理、特征工程、模型构建和评估等环节。同时,我们掌握了机器学习算法建模的实例,学会了如何使用XGBoost模型来解决保险欺诈识别的问题。

2023-07-08

淘宝母婴购物可视化分析报告

母婴用品是淘宝的热门购物类目,随着国家鼓励二胎、三胎政策的推进,会进一步促进了母婴类目商品的销量。与此年轻一代父母的育儿观念也发生了较大的变化,因此中国母婴电商市场发展形态也越来越多样化。随之引起各大母婴品牌更加激烈的争夺,越来越多的母婴品牌管窥到行业潜在的商机,纷纷加入母婴电商,行业竞争越来越激烈。各平台以及商家为了提高销量,继续保持效益增长,纷纷采取更加精细化的运营模式,即使用数据分析驱动业务增长,通过了解核心业务指标对销量的影响,有针对性的对业务的各个流程以及产品服务进行优化,最终达到帮助商家提高销量,增加收益的目的。

2023-07-08

基于多元线性回归模型的医疗费用预测分析

本次数据来源与阿里云天池大赛医疗费用个人数据集,对数据进行删除重复值处理、缺失值处理(无缺失数据),以及分类变量标签化处理。最后得到多元线性回归模型的数据,我们使用OLS函数创建了一个回归模型对象,并将因变量y和自变量X作为参数传递给该函数。该函数会自动拟合最小二乘回归模型,找到最优的回归系数。

2023-07-08

数据质量分析指标

主要是对数据质量分析过程中 遇到的一个指标进行详细的说明和解释,比如数据完备性、有效性等,如何正确的去对已有的数据进行质量分析,里面涉及的指标都很有实用性。

2019-04-19

数据挖掘知识内容整理

关于数据挖掘过程中涉及的特征工程、机器学习涉及的算法等整理。

2018-09-03

电商建模相关标签整理

根据电子商务客户消费订单表,退货表,用户表以及购物车表数据来源,以及客户参加活动信息表和客户购买的商店,客户访问信息表(访问来源时间段)等数据,提取不用维度的标签特征,同时提出针对营销需要的模型算法,例如用户购物类型,用户品类分群模型,客户活跃状态模型等模型算法。

2018-08-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除