数据分析、机器学习(Python)
文章平均质量分 95
数据分析、机器学习(Python)
四月天03
能用钱解决的问题,千万别花时间
展开
-
基于LDA主题模型文本分类
项目场景:以微博为数据源,分析新冠疫苗舆情的主题演化和情感波动趋势,结合时事进行验证,从而得出特殊事件对于舆情的特定影响,为突发公共事件的社交媒体舆情合理引导提供建议。所以想要生成一篇文章,可以先以一定的概率选取上述某个主题,再以一定的概率选取那个主题下的某个单词,不断重复这两步就可以生成最终文章。LDA主题模型主要用于推测文档的主题分布,可以将文档集中每篇文档的主题以概率分布的形式给出根据主题进行主题。,通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。原创 2023-07-21 16:53:34 · 4372 阅读 · 0 评论 -
python实现量化交易策略
相信大家都听说过股票,很羡慕那些炒股大佬,觉得量化投资非常高深,本文教大家用python实现简单的量化交易策略。在这强调一下,本文仅供交流学习参考,不构成任何投资建议。炒股有风险,投资需谨慎。本文用相关性构建一个简单的交易策略,但还有许多工作没有完成,有兴趣的读者可以进行改善。比如调参,本文用1年数据来测试1个季度,读者们可以用2年数据测试1个季度,用1年数据测试1个月等等。或者用今天和前天数据计算相关性,或者用所有上市公司代替沪深300,或者取相关性最大的5组股票等等。原创 2022-08-20 21:45:27 · 4719 阅读 · 1 评论 -
Python量化交易
dit={'111':'重要价值客户','011':'重要保持客户','101':'重要挽留客户','001':'重要发展客户','110':'一般价值客户','010':'一般保持客户','100':'一般挽留客户','000':'一般发展客户',df.groupby(by='user_id').sum().query('order_amount ..................原创 2022-08-12 21:13:24 · 2478 阅读 · 0 评论 -
机器学习项目实战之信用卡欺诈检测
机器学习项目实战之信用卡欺诈检测(零基础,附数据及详细python代码)https://blog.csdn.net/qq_40683479/article/details/89221558项目实例---金融---用机器学习构建模型,进行信用卡反欺诈预测https://blog.csdn.net/qingqing7/article/details/80665356反...原创 2020-01-13 18:25:02 · 1685 阅读 · 0 评论 -
信用评分卡模型
信贷风险是指借款人因偿还贷款或履行合同承诺而破产而产生损失的可能性。传统上,它与贷款人无法偿还所欠利息和本金、影响现金流和增加装配成本所产生的风险有关。很难准确预测谁会违约。尽管如此,适当的评估和风险管理可以通过减少损失的严重程度,帮助您显著降低此类信贷风险。个人信用风险当任何贷款人发放贷款(如抵押贷款、信用卡或其他类似贷款)时,存在借款人可能无法偿还贷款金额的可避免风险。此外,如果一家公司向客户提供此类信贷,客户也会面临同样的风险,即客户不会偿还。原创 2019-09-12 13:38:37 · 2197 阅读 · 0 评论 -
风控信用评分卡建模
银行信贷业务场景中,评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段,评分卡打出的分数越高,客户的信用等级越高,风险越小。p和q为常熟,p是补偿,p是刻度。我们现在已经有了我们的箱子,接下来我们要做的是计算各箱的WOE,并且把WOE替换到我们的原始数据中,因为我们将使用WOE后的数据来建模,我们希望获取的是”各个箱”的分类结果,即评分卡上各个评分项目的分类结果。对于X4,X5,X6,X8,以及X10而言,IV值都比较低,因此可以舍弃这些预测能力较差的特征,只选择X1,X2,X3,X7,X9。原创 2019-08-01 17:34:40 · 673 阅读 · 0 评论 -
大数据新算法在个人信用风险评估模型中使用效果的评估
风控系统资料https://www.jianshu.com/p/db2aece905a7基于大数据和机器学习的Web异常参数检测系统Demo实现https://www.freebuf.com/articles/web/134334.html支付风控系统设计:风控数据仓库建设http://www.woshipm.com/data-analysis/527332.html项目...原创 2019-04-18 17:46:33 · 3250 阅读 · 0 评论 -
机器学习(八)
https://blog.csdn.net/livan1234/article/category/7751893https://blog.csdn.net/qq_36523839/article/category/7890640原创 2019-03-08 15:24:33 · 261 阅读 · 0 评论 -
机器学习(七)-- K-means聚类算法 ( k均值聚类算法)
一、K-means聚类算法算法思想k-means算法实际上就是通过计算不同样本间的距离来判断他们的相近关系的,相近的就会放到同一个类别中去。1.首先我们需要选择一个k值,也就是我们希望把数据分成多少类,这里k值的选择对结果的影响很大,选择方法有两种一种就是根据聚类的结果和k的函数关系判断k为多少的时候效果最好。另一种则是根据具体的需求确定,比如说进行衬衫尺寸的聚类你可能就会考虑分成三类...原创 2019-03-08 15:24:17 · 1781 阅读 · 0 评论 -
机器学习(六)-- 支持向量机(SVM)、比较神经网络、支持向量机、贝叶斯三个模型
比较神经网络、支持向量机、贝叶斯三个模型数据集说明数据下载地址:UCI Machine Learning Repositorydata文件为数据,由逗号分开,names文件为数据说明。data文件可以用excel打开。70%数据用于训练集,30%是测试集。WINE数据集这些数据包括了三种酒中13种不同成分的数量。13种成分分别为:Alcohol,Malicacid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonfla原创 2019-03-08 15:23:18 · 1284 阅读 · 0 评论 -
机器学习(五)--逻辑回归(logistic regression,LR )
1. 什么是逻辑回归逻辑回归是一种有监督的统计学习方法,主要用于对样本进行分类。y=f(x)=ax+b通过函数S的作用,我们可以将输出的值限制在区间[0, 1]上,p(x)则可以用来表示概率p(y=1|x),即当一个x发生时,y被分到1那一组的概率。可是,等等,我们上面说y只有两种取值,但是这里却出现了一个区间[0, 1],这是什么鬼??其实在真实情况下,我们最终得到的y的值是在...原创 2019-03-08 15:23:07 · 902 阅读 · 0 评论 -
机器学习(四)—AdaBoost算法原理及代码实现
https://blog.csdn.net/gm_Ergou/article/details/90731270https://blog.csdn.net/gm_Ergou/article/details/90731551https://www.ibm.com/developerworks/cn/analytics/library/machine-learning-hands-on6-ada...原创 2019-03-08 15:22:57 · 375 阅读 · 0 评论 -
机器学习(三)-- KNN(K近邻分类算法)、电影分类、改进约会网站的配对效果
决策树<朴素贝叶斯< KNNK近邻算法:根据距离来做排序,距离哪些同类的数据比较近则属于哪一类(1)从计算结果直观上来看,在这三种算法中,KNN算法的计算准确率普遍较高,且kNN算法在训练数据与测试数据的比例为9:1时,其准确率达到90%以上。但是在每次计算测试数据的类别时,都要进行与训练数据的比较。在这种情况下,其复杂度随着数据量的增大而迅速增长。(2)决策树在...原创 2019-03-08 15:22:44 · 918 阅读 · 0 评论 -
机器学习(二)--贝叶斯分类器、垃圾邮件分类、TF-IDF及其算法
联合概率表示两个事件共同发生的概率。A与B的联合概率表示为P(A∩B)或者P(A,B)。条件概率(又称后验概率):事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。贝叶斯定理便是基于下述贝叶斯公式:P(A|B)=P(B|A)P(A)/P(B)上述公式的推导其实非常简单,就是从条件概率推出。根据条件概率的定义,在事件B发...原创 2019-03-08 15:22:31 · 1949 阅读 · 0 评论 -
机器学习(一)— 决策树 & 随机森林
https://www.jianshu.com/p/907ab19751a8https://blog.csdn.net/livan1234/article/details/80863222决策树(Decision Tree)决策树 通常包括三个步骤:特征选择、决策树的生成和决策树的修剪。1、特征选择2、决策树的生成通过递归的选择最优特征,根据该特征对训练数据进行划分直到使得...原创 2019-03-03 11:56:00 · 1121 阅读 · 0 评论 -
数据挖掘十大经典算法
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,...原创 2019-02-27 15:30:57 · 716 阅读 · 0 评论