![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
stay_foolish12
本科统计学,研究生计算机应用技术。可以【接 】大学计算机课程设计、课程大作业,C++\C\JAVA\汇编\Golang\PHP等相关语言,MySQL\SQLServer等数据库,Linux操作系统,人工智能、数据挖掘、数据分析、自然语言处理等相关课程均可
展开
-
基于机器学习算法和pytorch实现的深度学习模型的中文长文本多分类任务实战
本文针对中文长文本的多分类问题,做了不同模型的全流程实现方案的展示,意在熟悉每个流程的coding和模型的一些细节。同时也可以对不同模型在长文本分类的效果上有一个基线,以后做类似的任务,就能很快的选择技术方案和排错。同时也对模型训练过程监控的可视化显示有了一个尝试,说明越来越有炼丹师的气质了呀!哈哈哈哈哈哈展望,其实目前业界对广泛的长文本分类并没有效果很好的方法,不同的论文中也提出了一些尝试和方法。在我的另一篇博客中——转载 2023-02-13 16:13:50 · 1647 阅读 · 0 评论 -
困惑度、主题一致性,lda模型找出主题相关词
通俗一点解释下就是,困惑度表示的对于一篇文章来说,我们有多不确定它是属于某个主题的。即主题的个数越多,模型的困惑度就越低,但是注意一点,当主题数很多的时候,生成的模型往往会过拟合,所以不能单纯依靠困惑度来判断一个模型的好坏。这时候我们的另一个判断标准就有作用了。biubiu~一致性!困惑度perplexity:句子的概率的倒数。如果句子的概率越大,说明这句话越符合人话的规律,即p(句子),pp困惑度越小。模型对该句子就越不困惑。通过图形,我暂时将主题定为10个。主题一致性:coherence。原创 2022-10-10 10:47:06 · 19767 阅读 · 6 评论 -
手把手教你模型选择,模型评估
通过混淆矩阵去查看各个分类的结果。原创 2022-10-10 10:29:41 · 192 阅读 · 0 评论 -
常见的统计分析方法汇总,指标对比分析、时间序列预测
此外在统计上,许多综合指标是采用价值形态来反映实物总量,如国内生产总值、工业总产值、社会商品零售总额等计算不同年份的发展速度时,必须消除价格变动因素的影响,才能正确的反映实物量的变化。二、分组分析法指标对比分析法是总体上的对比,但组成统计总体的各单位具有多种特征,这就使得在同一总体范围内的各单位之间产生了许多差别,统计分析不仅要对总体数量特征和数量关系进行分析,还要深入总体的内部进行分组分析。因素分析按其所研究的对象的统计指标不同可分为对总量指标的变动的因素分析,对平均指标变动的因素分析。原创 2022-09-28 16:33:09 · 3449 阅读 · 0 评论 -
自动机器学习pycaret,手把手教你自动提取特征、自动选取模型、自动评价
手把手教你自动提取特征、自动选取模型、自动评价。原创 2022-08-10 09:44:04 · 940 阅读 · 0 评论 -
利用Python进行数据分析+准备工作+缺失数据+数据转换+数据规整+数据聚合与分组运算
利用Python进行数据分析:准备工作利用Python进行数据分析:缺失数据(基于DataFrame)利用Python进行数据分析:数据转换(基于DataFrame)利用Python进行数据分析:数据规整(基于DataFrame)利用Python进行数据分析:数据聚合与分组运算(基于DataFrame)...原创 2022-08-02 15:32:23 · 122 阅读 · 0 评论 -
python 怎么将列表中的字典安照某一个key输出到csv,python如何把字典数据存储进csv文件
示例代码实例代码:原创 2022-06-13 10:32:08 · 361 阅读 · 0 评论 -
机器学习常用的算法整理:线性回归、逻辑回归、贝叶斯分类、支持向量机、K-means聚类、决策树、随机森林以及常用的应用场景整理
什么是机器学习?机器学习是计算机利用已有的数据(经验)得出了某种模型,并利用这些模型预测未来的一种方法。这个过程其实与人的学习过程极为相似,只不过机器是一个可以进行大维度数据分析而且可以不知疲倦地学习的“怪兽”而已。具体的机器学习过程如下:机器学习算法纵览常见的机器学习算法: 产品视角的14种常见算法简单总结决策树无监督机器学习中,最常见4类聚类算法总结 :K-means聚类 Dbscan聚类...原创 2020-12-21 16:56:31 · 2625 阅读 · 4 评论 -
四大银行(工建农中)大数据进展如何?
原文地址:https://cloud.tencent.com/developer/article/1052576中国建设银行中国建设银行信息技术管理部资深经理林磊明▼▼1、银行压力越来越大从十二五走到十三五期间,银行业面临的各方面的压力越来越大,从我们的年报数字可以看出去年四大行的利润增长基本上趋近于零增长。在这样的情况下,我们怎样通过IT的引领提升传统银行的竞争力,这是摆在我们面前的一个很重要...转载 2019-07-21 17:20:44 · 1033 阅读 · 0 评论 -
数据挖掘算法(logistic回归,随机森林,GBDT和xgboost)-腾讯云社区
机器学习就是样本中有大量的x(特征量)和y(目标变量)然后求这个function。(了解更多可以看: https://zhuanlan.zhihu.com/p/21340974?refer=mlearn )求函数的方法,基于理论上来说,大部分函数都能找到一个近似的泰勒展开式。而机器学习,就是用数据去拟合这个所谓的“近似的泰勒展开式”。实际面试时很看重和考察你的理论基础,所以一定一定要重视各个算法推...转载 2019-05-23 10:53:08 · 1608 阅读 · 0 评论 -
图解Transformer-一篇文章看懂transformer
原文标题:The Illustrated Transformer原文链接:https://jalammar.github.io/illustrated-transformer/论文地址:https://arxiv.org/abs/1706.03762前言 ...转载 2019-05-06 18:44:34 · 5033 阅读 · 1 评论 -
各大集团技术团队社区-微软-阿里-腾讯-百度-美团
百度AI社区:http://ai.baidu.com/forum/topic/list/169阿里云栖社区:https://yq.aliyun.com/articles/美团技术团队:https://tech.meituan.com/2019/02/28/root-clause-analysis.html微软行业博客:https://cloudblogs.microsoft.com/indu...转载 2019-04-24 13:05:33 · 4519 阅读 · 0 评论 -
竞赛|数据竞赛Top解决方案开源整理-科大讯飞AI营销算法、阿里妈妈搜索广告、腾讯广告算法、搜狗的用户画像
https://mp.weixin.qq.com/s/_4QG0dWhh784lF0n1wymcw原创 2019-04-18 08:57:43 · 856 阅读 · 0 评论 -
【TensorFlow】优化方法optimizer总结(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)解析(十三)
本文仅对一些常见的优化方法进行直观介绍和简单的比较,主要是一阶的梯度法,包括SGD, Momentum, Nesterov Momentum, AdaGrad, RMSProp, Adam。 其中SGD,Momentum,Nesterov Momentum是手动指定学习速率的,而后面的AdaGrad, RMSProp, Adam,就能够自动调节学习速...转载 2019-04-17 09:17:42 · 1375 阅读 · 0 评论 -
优云软件数据专家最佳实践:数据挖掘与运维分析
优云软件数据专家最佳实践:数据挖掘与运维分析这份研究报告,作者是优云软件数据专家陈是维,在耗时1年时间制作的一份最佳实践,今天和大家分享下,关于《数据采矿和运维分析》,共同探讨~数据挖掘(Data Mining)是从大量数据中提取或“挖掘”知识。广义数据挖掘:数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据挖掘有趣知识的过程。数据挖掘技术侧重:1)概率与数理...转载 2019-04-17 09:04:26 · 414 阅读 · 0 评论