Lingxw_w
目前CS研究生在读,研究方向网络科学。个人主页:https://lingxianwen.github.io
展开
-
【数据挖掘从入门到实战】——专栏导读
数据挖掘专栏,包含基本的数据挖掘算法分析和实战,数据挖掘竞赛干货分享等。原创 2023-07-06 18:59:50 · 16311 阅读 · 38 评论 -
【数据挖掘竞赛】——比赛的流程干货分享
做一个数据挖掘比赛,主要包含了数据分析,数据清洗,特征工程,模型训练和验证等四个大的模块。原创 2022-06-30 12:14:23 · 939 阅读 · 0 评论 -
【数据挖掘竞赛】——科大讯飞:锂离子电池生产参数调控及生产温度预测挑战赛
锂离子电池材料的主要生产设备是电炉,研究烧结过程的数字化建模,通过电炉空间温度推测产品内部温度,设计烧结过程的温度场和浓度场的最优控制律,搭建产品制备过程运行平台,有望最终实现该过程的效率提升和协同优化,达到提高产品一致性,降低生产能耗的目标。原创 2023-07-31 14:18:46 · 29844 阅读 · 32 评论 -
【数据挖掘竞赛】——糖尿病遗传风险检测挑战赛(科大讯飞)
截至2022年,中国糖尿病患者近1.3亿。中国糖尿病患病原因受生活方式、老龄化、城市化、家族遗传等多种因素影响。同时,糖尿病患者趋向年轻化。糖尿病可导致心血管、肾脏、脑血管并发症的发生。因此,准确诊断出患有糖尿病个体具有非常重要的临床意义。......原创 2022-07-04 22:00:40 · 2363 阅读 · 14 评论 -
【数据挖掘竞赛】——汽车领域多语种迁移学习挑战赛(科大讯飞)
国内车企为提升产品竞争力、更好走向海外市场,提出了海外市场智能交互的需求。但世界各国在“数据安全”上有着严格法律约束,要做好海外智能化交互,本土企业面临的最大挑战是数据缺少。本赛题要求选手通过NLP相关人工智能算法来实现汽车领域多语种迁移学习。.........原创 2022-07-21 22:13:01 · 1683 阅读 · 30 评论 -
【数据挖掘竞赛】——降低汽油精制过程中的辛烷值损失模型(二)
汽油的实际精制生产工序十分繁琐,可操作位点繁多,而不同操作位点之间可能存在着某些相关性质,例如装置内部温度的变化可能会导致装置内部压力的变化。同时也存在 一些与汽油成品质量相关性不大的常规操作变量。为了降低后续数据处理过程中所消耗的计算资源,需要对354个操作变量进行筛选,使得筛选出的操作变量最具代表性,与目标输出指标的相关程度高。数据来源:原始数据采集来源于中石化高桥石化实时数据库(霍尼韦尔 PHD)及 LIMS 实验数据库。原创 2022-10-05 11:33:49 · 1975 阅读 · 48 评论 -
【数据挖掘竞赛】——降低汽油精制过程中的辛烷值损失模型(一)
一、背景汽油是小型车辆的主要燃料,汽油燃烧产生的尾气排放对大气环境有重要影响。为此,世界各国都制定了日益严格的汽油质量标准(见下表)。汽油清洁化重点是降低汽油中的硫、烯烃含量,同时尽量保持其辛烷值。欧盟和我国车用汽油主要规格车用汽油标准辛烷值硫含量/(μg/g)≯苯含量/%≯芳烃含量/%≯烯烃含量/%≯国Ⅲ(2010年)原创 2022-10-03 23:14:16 · 844 阅读 · 20 评论 -
【数据挖掘实战】——科大讯飞:跨境广告ROI预测(Baseline)
跨境电商广告 ROI(收入/广告消耗)预测一直以来都是效果类广告领域的重要挑战。在当前全球化背景下,海外媒体流量成本不断攀升,加之广告主对广告投入产出的关注日益加强,使得对广告投放效果的预测成为当下迫切需要解决的问题。原创 2023-06-13 17:16:36 · 1722 阅读 · 12 评论 -
【数据挖掘实战】——中医证型的关联规则挖掘(Apriori算法)
能够帮助乳腺癌患者手术后体质的恢复、生存质量的改善,有利于提高患者的生存机率。探索不同分期阶段的三阴乳腺癌患者的中医证素分布规律,以及截断病变发展、先期干预的治疗思路,指导三阴乳腺癌的中医临床治疗。问卷信息采集者均要求有中医诊断学基础,能准确识别病人的舌苔脉象,用通俗的语言解释医学术语,并确保患者信息填写准确;中医辨证极为灵活,虽能够处理患者的复杂多变的临床症状,体现出治疗优势。但缺乏统一的规范,难以做到诊断的标准化。同一种疾病的辨证分型,往往都有不同见解,面对临床症状不典型的患者,初学者很难判断。原创 2023-02-19 15:32:08 · 12167 阅读 · 93 评论 -
【数据挖掘实战】——应用系统负载分析与容量预测(ARIMA模型)
系统负载分析的传统方法:通过监控采集到的性能数据以及所发出的告警事件,人为进行判断系统的负载情况。实际业务中,监控系统会每天定时对磁盘的信息进行收集,但是磁盘容量属性一般情况下都是一个定值(不考虑中途扩容的情况),因此磁盘原始数据中会存在磁盘容量的重复数据。在不考虑人为因素的影响时,存储空间随时间变化存在很强的关联性,且历史数据对未来的发展存在一定的影响,故可采用时间序列分析法对磁盘已使用空间进行预测分析。三个属性进行区分,且每台服务器的上述三个属性值是不变的,所以可以将三个属性的值进行合并。原创 2023-02-27 10:22:39 · 4472 阅读 · 71 评论 -
【数据挖掘实战】——家用电器用户行为分析及事件识别(BP神经网络)
构建用水事件行为识别模型1、洗浴识别模型根据建模样本数据和用户记录的包含用水的用途、用水开始时间、用水结束时间等属性的用水日志,建立BP神经网络模型识别洗浴事件。原创 2023-02-24 20:34:07 · 6548 阅读 · 75 评论 -
【数据挖掘实战】——基于水色图像的水质评价(LM神经网络和决策树)
背景和挖掘目标1、问题背景从事渔业生产有经验的从业者可通过观察水色变化调控水质,用来维持养殖水体生态系统中浮游植物、微生物类、浮游动物等合理的动态平衡。由于这些多是通过经验和肉眼观察进行判断,存在主观性引起的观察性偏倚,使观察结果的可比性、可重复性降低,不易推广应用。当前,数字图像处理技术为计算机监控技术在水产养殖业的应用提供更大的空间。在水质在线监测等方面,数字图像处理技术是基于计算机视觉,以专家经验为基础,对池塘水色进行优劣分级,达到对池塘水色的准确快速判别。原创 2023-02-22 13:35:09 · 6955 阅读 · 79 评论 -
【数据挖掘实战】——航空公司客户价值分析(K-Means聚类案例)
在企业的客户关系管理中,对客户分类,区分不同价值的客户。针对不同价值的客户提供个性化服务方案,采取不同营销策略,将有限营销资源集中于高价值客户,实现企业利润最大化目标。在竞争激烈的航空市场里,很多航空公司都推出了优惠的营销方式来吸引更多的客户。在此种环境下,如何将公司有限的资源充分利用,提示企业竞争力,为企业带来更多的利益。原创 2023-02-16 21:36:52 · 5715 阅读 · 46 评论 -
【数据挖掘实战】——电力窃漏电用户自动识别(LM神经网络和决策树)
传统的防窃漏电方法主要通过定期巡检、定期校验电表、用户举报窃电等方法来发现窃电或计量装置故障。但这种方法对人的依赖性太强,抓窃查漏的目标不明确。目前,很多供电局主要通过营销稽查人员、用电检查人员和计量工作人员利用计量异常报警功能和电能量数据查询功能开展用户用电情况的在线监控工作,通过采集电量异常、负荷异常、终端报警、主站报警、线损异常等信息,建立数据分析模型,来实时监测窃漏电情况和发现计量装置的故障。根据报警事件发生前后客户计量点有关的电流、电压、负荷数据情况等,构建基于指标加权的用电异常分析模型。原创 2023-02-13 16:16:12 · 10223 阅读 · 66 评论 -
【数据挖掘实战】——使用 word2vec 和 k-mean 聚类寻找相似城市
在旅行场景下,城市——我们通常称为目的地,是一个很重要的信息。根据用户对于目的地的偏好,我们既可以把目的地作为一个特征用于推荐系统中,也可以把目的地当作一个被推荐的信息直接推荐给用户。所以,我们有一个需求,就是把相似的目的地整理出来,然后可以通过这些相似目的地做相关推荐,或者是相关目的地的推荐。原创 2022-11-08 18:58:11 · 687 阅读 · 8 评论 -
【数据挖掘实战】——使用xgboost实现酒店信息消歧
前面我们讲解了数据挖掘思维,也介绍了一些数据挖掘所使用的算法,那么今天我们就从实际情况出发,看看数据挖掘该如何在工作中发挥作用。XGB 算法我们在前面的章节已经做过一些了解,它是由决策树衍生出来的一种算法,在做实验和工业生产中都有非常好的效果。原创 2022-11-04 19:37:19 · 472 阅读 · 46 评论 -
【数据挖掘实战】——舆情分析:对微博文本进行情绪分类
疫情发生对人们生活生产的方方面面产生了重要影响,并引发了国内舆论的广泛关注,众多网民也参与到了疫情相关话题的讨论中。大众日常的情绪波动在疫情期间会放大,并寻求在自媒体和社交媒体上发布和评论。比赛地址:http://challenge.xfyun.cn/topic/info?为了掌握真实社会舆论情况,科学高效地做好防控宣传和舆情引导工作,针对疫情相关话题开展网民情绪识别是重要任务。本次我们重点关注微博平台上的用户情绪,希望各位选手能搭建自然语言处理模型,对疫情下微博文本的情绪进行识别。原创 2023-06-08 21:04:02 · 4073 阅读 · 118 评论 -
【数据挖掘基础】——常见算法对比和选择(9)
算法固然重要,但好的数据却要优于好的算法,设计优良特征是大有裨益的。假如你有一个超大数据集,那么无论你使用哪种算法可能对分类性能都没太大影响(此时就可以根据速度和易用性来进行抉择)。原创 2023-06-26 06:11:09 · 767 阅读 · 2 评论 -
【数据挖掘基础】——支持向量机(SVM)+代码实现(8)
支持向量机算法分类和回归方法的中都支持线性性和非线性类型的数据类型。非线性类型通常是二维平面不可分,为了使数据可分,需要通过一个函数将原始数据映射到高维空间,从而使得数据在高维空间很容易可分,需要通过一个函数将原始数据映射到高维空间,从而使得数据在高维空间很容易区分,这样就达到数据分类或回归的目的,而实现这一目标的函数称为核函数。原创 2022-11-01 10:07:44 · 4520 阅读 · 76 评论 -
【数据挖掘基础】——决策树算法+代码实现(7)
1、从女神如何决策跟谁约会的问题出发,引出决策树算法的原理2、研究者提出各种改进方案,并由决策树延伸出了很多新的优秀的算法3、在尝试动手的环节,加入了一些绘图的技巧。原创 2022-10-30 15:46:35 · 1340 阅读 · 39 评论 -
【数据挖掘基础】——KNN算法+sklearn代码实现(6)
KNN最邻近分类算法的实现原理:为了判断未知样本的类别,以所有已知类别的样本作为参照,计算未知样本与所有已知样本的距离,从中选取与未知样本距离最近的K个已知样本,根据少数服从多数的投票法则(majority-voting),将未知样本与K个最邻近样本中所属类别占比较多的归为一类。原创 2022-10-27 13:54:25 · 2153 阅读 · 85 评论 -
【数据挖掘基础】——模型怎么解决业务需求(5)
从项目的需求发起,到数据准备,再到模型训练、评估、上线,这些环节都遇到了什么样的问题,我们解决了什么问题,又有哪些问题尚未解决,在时间等条件充裕的情况下还可以做哪些尝试。介绍了一些关于模型保存、模型优化、模型部署的思路。讲解了关于项目总结,乃至模型监控等内容。原创 2022-10-24 10:35:36 · 1738 阅读 · 59 评论 -
【数据挖掘基础】——模型的评估(4)
模型的各种评估指标,从一个混淆矩阵出发,衍生出一系列的准确度评测对模型泛化能力进行评估介绍了如何在数据上进行一些优化从而减少评估时产生误差。原创 2022-10-22 20:48:50 · 2425 阅读 · 107 评论 -
【数据挖掘基础】——数据的预处理(3)
准备数据:如何处理出完整、干净的数据?原始的数据本身也存在着各种各样的问题:如不够准确、格式多样、部分特征缺失、标准不统一、特殊数据、错误数据等。原创 2022-10-19 15:19:48 · 3130 阅读 · 84 评论 -
【数据挖掘基础】——理解业务和数据(2)
目录1、思想问题避免对业务的轻视明白可以为和不可以为数据挖掘不是万能的2、业务背景和目标3、把握数据总结数据挖掘流程图 :前置准备:要做什么样的人,要先去按照那样的人去思考。做数据挖掘,一定要避免的思想问题我学了很多的算法,穿着程序员的衣服,背着程序员的电脑,我就是一个优秀的数据挖掘工程师了数据挖掘人员需要真正理解业务场景与挖掘需求数据挖掘的本质是一种方法要去解决问题,一定要源于业务需求,服务业务需求如果要做一个成功的数据挖掘项目: 一个业务需求来了:比如你在做一个OTA酒店消歧的项目,酒店业务中的原创 2022-10-18 09:18:04 · 1297 阅读 · 31 评论 -
【数据挖掘基础】——数据挖掘能解决什么问题(1)
数据挖掘提供了一系列的框架、工具和方法,可以处理不同类型的大量数据,并且使用复杂的算法部署,去探索数据中的模式。如果有多重技术要使用,在这一任务中,对于每一个要使用的技术要分别对待比如SVM算法只能输入数值型的数据。数据挖掘经过了数十年的发展和无数专家学者的研究,有很多人提出了完整的流程框架。选用各种各样的算法模型来处理数据,让模型学习数据的规律,并产出模型。数据准备是基于原始数据,去构建数据挖掘模型所需的数据集的所有工作。在业务理解的基础上,对掌握的数据要有一个清晰、明确的认识。原创 2022-10-17 11:02:38 · 450 阅读 · 29 评论