数据分析
文章平均质量分 83
python机器学习建模
这个作者很懒,什么都没留下…
展开
-
2023年中国法拍房用户画像和数据分析
2023年中国法拍房用户画像和数据分析原创 2023-12-16 21:16:29 · 4841 阅读 · 1 评论 -
基于中小微企业_个体工商户的信贷评分卡模型和用户画像(论文_专利_银行建模_企业调研)
基于中小微企业_个体工商户的信贷评分卡模型和用户画像(论文_专利_银行调研建模使用)原创 2023-12-16 21:12:02 · 2881 阅读 · 1 评论 -
中国法拍房数量统计预测模型_2023和2024年法拍房数量竟是...
中国法拍房数量统计预测模型_2023和2024年法拍房数量竟是...硬核收藏原创 2023-12-14 10:53:06 · 3398 阅读 · 0 评论 -
房贷背后数学陷阱-蒙特卡洛算法Monte Carlo揭秘断供为何越来越多(硬核收藏)
房贷背后数学陷阱-蒙特卡洛算法Monte Carlo揭秘断供为何越来越多(硬核收藏)原创 2023-12-13 10:19:30 · 3214 阅读 · 0 评论 -
Yellowbrick新手入门简介:用于Python机器学习模型可视化的工具库
Yellowbrick新手入门简介:用于机器学习模型可视化的 Python库原创 2023-08-20 20:16:50 · 5600 阅读 · 0 评论 -
一行Pandas代码即可惊艳四座
一行Pandas代码即可惊艳四座,QQ学习群:1026993837原创 2022-06-13 09:58:47 · 1438 阅读 · 2 评论 -
pandas.to_numeric
将参数转换为数字类型。默认返回dtype为float64或int64, 具体取决于提供的数据。使用downcast参数获取其他dtype。参数描述args接受scalar, list, tuple, 1-d array, or Series类型errors有3种类型{‘ignore’, ‘raise’, ‘coerce’}, 默认为‘raise’downcast{‘integer’, ‘signed’, ‘unsigned’, ‘float’} , default .转载 2022-03-05 13:45:41 · 770 阅读 · 0 评论 -
Seaborn绘制kdeplot和distplot
Seaborn是基于matplotlib的Python可视化库。 它提供了一个高级界面来绘制有吸引力的统计图形。Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,不需要经过大量的调整就能使你的图变得精致。 Seaborn的安装 安装完Seaborn包后,我们就开始进入接下来的学习啦,首先我们介绍kdeplot的画法。 注:所有代码...转载 2022-03-02 19:24:57 · 1528 阅读 · 0 评论 -
astype()函数
1astype()函数可用于转化dateframe某一列的数据类型如下将dateframe某列的str类型转为int,注意astype()没有replace=True的用法,想要在原数据上修改,要写成如下形式。注意只有当该列的字符串全是由纯数字构成时才可以这样写,如果混有字母,会报错:ValueError: invalid literal for int() with base 10:利用int()函数转字符串也类似参考:https://www.cnblogs.com/h...原创 2022-03-01 11:10:57 · 26528 阅读 · 0 评论 -
2022 年您必须关注的 8 个python数据科学神器
在公众号「python风控模型」里回复关键字:学习资料 QQ学习群:1026993837 领学习资料 2022年我谈到了八个可能会成为数据和 机器学习 领域增长最快的库。1️⃣。SHAPSHAP是机器学习可解释性的工具,打破了机器学习不可解释的神话。就像评分卡模型,其它机器学习算法也可以分析变量的业务意义。不久前,我在 LinkedIn 上看到了这篇文章,它彻底改变了我对 AI 的看法:最强大的语言模型之一原创 2022-02-04 10:28:13 · 1860 阅读 · 1 评论 -
如何使用UMAP分析100维数据,惊艳令人叹为观止
在公众号「python风控模型」里回复关键字:学习资料 QQ学习群:1026993837 领学习资料 介绍无论机器学习模型多么强大,它们都无法完全击败您在那些“啊哈!”中获得的感觉。通过丰富的视觉效果探索数据的时刻。但是,在你说“这真的变老了”之前,你可以创建很多直方图、散点图、热图。在那些时刻,你需要一些东西来提醒你数据是多么的惊人和迷人。您需要从 FlowingData 或相关子版块中的杰作视觉效果中获原创 2022-02-04 09:58:34 · 3503 阅读 · 1 评论 -
python pip常用指令(install,list,freeze,show,help)建议保存
在公众号「python风控模型」里回复关键字:学习资料 QQ学习群:1026993837 领学习资料 目前如果你在 python.org 下载最新版本的安装包,则是已经自带了该工具。pip是一个以Python计算机程序语言写成的软件包管理系统,他可以安装和管理软件包,另外不少的软件包也可以在“Python软件包索引”(英语:Python Package Index,PyPI)中找到。许多Python的发行版原创 2022-01-25 19:11:18 · 6626 阅读 · 1 评论 -
100 个 pandas 案例,强烈建议保存
100 个 pandas 案例,强烈建议保存原创 2022-01-25 17:03:45 · 1814 阅读 · 1 评论 -
呆瓜半小时入门python数据分析_金融和生物信息学多个实战案例
随着数据经济到来,数据分析师成为一门性感职业。在互联网时代,我们每个人的信息,行为,通信,衣食住行都被数据化,存储在数据中心里。通过数据分析,我们可以从数据库里得到有价值信息。因此大数据正成为Google,Facebook,Twitter,百度,腾讯,阿里等跨国公司的核心财富。(下图为facebook位于欧洲的数据中心)数据驱动经济,各行各业对数据分析师需求越来越大,其中互联网行业,金融行业,电子商务行业,计算机行业,移动互联网行业对数据分析需求量特别大,是典型行业。(下图为2000条数据抽样统计结论)小公原创 2021-12-13 11:54:03 · 2912 阅读 · 1 评论 -
时间序列_seasonal_decompose使用移动平均线进行季节性分解
在公众号「python风控模型」里回复关键字:学习资料statsmodels.tsa.seasonal.seasonal_decompose使用移动平均线进行季节性分解所谓分解就是将时序数据分离成不同的成分,分解有:长期趋势Trend、季节性seasonality和随机残差residualsstatsmodels使用的X-11分解过程,它主要将时序数据分离成长期趋势、季节趋势和随机成分。 与其它统计软件一样,statsmodels也支持两类分解模型,加法模型和乘法模型,model的参数设置为"ad原创 2021-12-12 22:23:12 · 5775 阅读 · 2 评论 -
Seaborn可视化 -- 分类统计图seaborn.catplot
Seaborn可视化 -- 分类统计图seaborn.catplot原创 2021-12-01 10:56:27 · 1295 阅读 · 0 评论 -
python机器学习搭建空气质量AQI(air quality index)预测模型
在公众号「python风控模型」里回复关键字:学习资料记得第一次看后天《the day after tomorrow》时完全把这部电影当成科幻片。直到最近收集了大量气候数据后,我改变了想法。根据美国NASA卫星图像数据显示,2015年拍摄到的挪威高海拔北极的景象。令人震惊的证据表明,导致主要生态系统和行星气候系统发生不可逆转变化的重要临界点可能已被达到或超过。马萨诸塞州科德角东南海岸在洋流、潮汐、波浪和风暴的影响下不断变化。例如,在1984年的图像中,被称为北滩的屏障喷口(东部边缘的原创 2021-12-01 10:52:08 · 8784 阅读 · 2 评论 -
HP 滤波 (Hodrick Prescott Filter)
在公众号「python风控模型」里回复关键字:学习资料什么是 Hodrick-Prescott (HP) 过滤器?Hodrick-Prescott (HP) 过滤器是指数据平滑技术。HP 过滤器通常在分析过程中应用,以消除与商业周期相关的短期波动。消除这些短期波动揭示了长期趋势。这有助于进行与商业周期相关的经济或其他预测。Hodrick-Prescott (HP)是时间序列中最常用的算法。关键要点Hodrick-Prescott 过滤器是指主要用于宏观经济学的数据平滑技术。它通常在分析过程中用于消除与商业周原创 2021-11-17 12:07:07 · 26834 阅读 · 3 评论 -
AutoViz:用一行代码自动可视化任何大小的任何数据集
在公众号「python风控模型」里回复关键字:学习资料,免费领取。数据科学家的任务通常是处理大量数据存储以提供可行的见解。然后分析这些见解以识别与商业智能甚至人类行为相关的模式。然而,构建数据查询和机器学习管道可能是一回事,采用所有类型的优化和聪明的算法。能够将艰巨的数据收集和建模的结果传达给不熟悉数据处理的同事,这完全是另一回事。这就是数据可视化来挽救局面的地方。Scott Berinato在他秒著作《Good Charts》中感叹道:“一个好的可视化可以比任何其他形式的交流更有效地传达信息和想法的性质和原创 2021-11-11 21:46:19 · 2964 阅读 · 1 评论 -
D-tale功能的探索
在公众号「python风控模型」里回复关键字:学习资料,免费领取。 python风控模型 持牌照金融公司模型专家,教学主页 https://ke.qq.com/teacher/231469242?tuin=dcbf0ba原创 2021-11-11 21:42:46 · 2186 阅读 · 1 评论 -
tushare pro积分规则
最开始发现tushare的时候,觉得很厉害,用简单的一行代码,就可以获取当天所有股票的股价信息。但用过之后发现,那是仅限于旧接口,现在已经更新了pro版,而pro版则要满足一定的积分门槛,才能使用对应的数据。新用户注册了,完善个人信息,就可以获得120积分,但仅仅可以获取日线行情、IPO新股列表、限售股解禁信息。(对于tushare积分对应权限的可以自己上tushare的官网查看)相信大家用python获取股票数据,肯定是为了批量分析股票相关数据,高级一点的是为了做量化交易,但我只能获取上述的日线行转载 2021-11-07 09:10:26 · 1444 阅读 · 2 评论 -
评分卡模型python实现
在公众号「python风控模型」里回复关键字:学习资料,就可免费领取。 python风控模型 持牌照金融公司模型专家,教学主页 https://ke.qq.com/teacher/231469242?tuin=dcbf0原创 2021-10-29 12:05:28 · 11221 阅读 · 1 评论 -
Python金融股票和量化分析三方库汇总
在公众号「python风控模型」里回复关键字:学习资料,免费领取。 python风控模型 持牌照金融公司模型专家,教学主页 https://ke.qq.com/teacher/231469242?tuin=dcbf0ba原创 2021-10-27 15:52:04 · 3486 阅读 · 1 评论 -
2万字-Python 用 XGBoost 进行梯度提升的数据准备(建议收藏)
在公众号「python风控模型」里回复关键字:学习资料,免费领取。 python风控模型 持牌照金融公司模型专家,教学主页 https://ke.qq.com/teacher/231469242?tuin=dcbf0ba原创 2021-09-15 21:41:25 · 906 阅读 · 1 评论 -
基于Python的信用评分卡模型-give me some credit数据集,AUC 0.93 KS 0.71
在公众号「python风控模型」里回复关键字:学习资料,就可免费领取。 python风控模型 持牌照金融公司模型专家,教学主页 https://ke.qq.com/teacher/231469242?tuin=dcbf0原创 2021-09-15 20:42:37 · 4495 阅读 · 2 评论 -
房子买贵了?房价收入比(house-price‑to‑income ratios)指标揭秘真相
大家经常会问现在改买房吗?很多媒体因为经济利益,会报道有偏差或误导性信息。客观公正数据并不会说谎,今天Toby老师提供一些有关房价数据指标,大家可以特别关注房价与租金比例(house price‑to‑rent )和房价与收入的比率(house-price‑to‑income ratios)这两个指标,房价收入比,是指住房价格与城市居民家庭年收入之比,即每户住房总价÷每户家庭年总收入。一般认为,合理的房价收入比的取值范围为4-6,若计算出的房价收入比高于这一范围,则认为其房价偏高,房地产可能存在泡沫,高出越原创 2021-08-27 11:59:53 · 247 阅读 · 1 评论 -
斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)
python金融风控评分卡模型和数据分析微专业课(博主亲自录制视频):http://dwz.date/b9vv pearsonr皮尔森共线系数要求:1.每个变量数据集符合正态分布2. p值代表极端值出现概率,样本量小时p值不可靠,但样本量大于500时,p值具有很大参考价值。https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.pearsonr.htmlhttps://docs.scip..原创 2021-07-27 17:20:34 · 2648 阅读 · 0 评论 -
消费者人群画像-信用智能评分(风控模型竞赛经典案例)
概述该项目是中国移动公司举办模型竞赛项目,奖金百万。赛题信息随着社会信用体系建设的深入推进, 社会信用标准建设飞速发展,相关的标准相继发布,包括信用服务标准、信用数据釆集和服务标准、信用修复标准、城市信用标准、行业信用标准等在内的多层次标准体系亟待出台,社会信用标准体系有望快速推进。社会各行业信用服务机构深度参与广告、政务、涉金融、共享单车、旅游、重大投资项目、教育、环保以及社会信用体系建设,社会信用体系建设是个系统工程,通讯运营商作为社会企业中不可缺少的部分同样需要打造企业信用评分体系,助.原创 2021-06-14 15:40:54 · 11707 阅读 · 2 评论 -
风控中英文术语手册(银行_消费金融信贷业务)_v4
1、风控系统部分1.Blazeblaze是FICO公司产品,用于规则管理,是模型ABC卡开发的前身。信贷公司开始放贷时,数据量少,申请用户少,难以建立模型。因此前期一般会用到专家经验判断好坏客户,然后通过风控决策管理系统进行高效作业,其中blaze就是一款应用多年,效率较高风控决策管理系统。但blaze属于商业产品,一般多应用于大银行,捷信等大型消费金融公司,收费可高于100万RMB每年,如果需要更多定制业务,收费更高。1.1 A card释义:Application scorecard 申.原创 2021-06-12 13:41:20 · 3525 阅读 · 1 评论 -
python实战因子分析和主成分分析
机器学习中,因子分析基础概念因子分析是一种统计方法,可用于描述观察到的相关变量之间的变异性,即潜在的未观察到的变量数量可能更少(称为因子)。例如,六个观察变量的变化可能主要反映了两个未观察(基础)变量的变化。因子分析搜索这种联合变化,以响应未观察到的潜在变量。将观察到的变量建模为潜在因素以及“错误”项的线性组合。简而言之,变量的因子加载量化了变量与给定因子相关的程度。因子分析方法背后的一个普遍原理是,有关观察到的变量之间的相互依赖性的信息可以稍后用于减少数据集中的变量集。因子分析通常用于生物学,原创 2021-05-28 20:22:24 · 11292 阅读 · 3 评论 -
python实战因子分析factor analysis
因子分析是一种统计方法,可用于描述观察到的相关变量之间的变异性,即潜在的未观察到的变量数量可能更少(称为因子)。例如,六个观察变量的变化可能主要反映了两个未观察(基础)变量的变化。因子分析搜索这种联合变化,以响应未观察到的潜在变量。将观察到的变量建模为潜在因素以及“错误”项的线性组合。简而言之,变量的因子加载量化了变量与给定因子相关的程度。因子分析方法背后的一个普遍原理是,有关观察到的变量之间的相互依赖性的信息可以稍后用于减少数据集中的变量集。因子分析通常用于生物学,心理计量学,人格理论,市场营销,产品原创 2021-05-28 19:49:00 · 7032 阅读 · 1 评论 -
python中文编码(汉字乱码问题解决方案)
Python脚本对英语字母是非常友好的,但对中文就不是了。我们用 Python 输出 "Hello, how are you!",英文没有问题,但是如果你输出中文字符 "你好!" 就有可能会碰到中文编码问题。Python中默认的编码格式是 ASCII 格式,在没修改编码格式时无法正确输出汉字,所以在读取中文时会报错。解决方法为只要在文件开头加入 # -*- coding: UTF-8 -*- 或者 # coding=utf-8 就行了。中文乱码问题在python老版本上比较突出。解决中文乱码问题最简原创 2021-03-26 15:24:12 · 993 阅读 · 0 评论 -
Anaconda下载和安装指南(超全)
Anaconda指的是一个Python集成开发软件,号称有两千万用户。Anaconda基于云的存储库,可查找并安装超过7,500个数据科学和机器学习模块。Anaconda官网:https://www.anaconda.com/Anaconda使用conda-install命令,您可以开始使用数千个开源模块。因为包含了大量的科学包,Anaconda 的下载文件比较大500 MB左右。不同版本Anaconda大小不一样。如果只需要某些包,或者需要节省带宽或存储空间,也可以使用Miniconda这个较原创 2021-03-26 15:19:23 · 2090 阅读 · 1 评论 -
python官网下载和安装指南
Python可应用于多平台包括windows, Linux 和 Mac OS X。Python最新源码,二进制文档,相关新闻资讯等可以在Python的官网查看到。Python官网链接:https://www.python.org/。(python官网)你可以在此链接下载python软件https://www.python.org/downloads/。目前针对windows系统的最新版为python3.8版本。假设我们用的Windows操作系统,点击Download python 3原创 2021-03-26 15:16:28 · 3551 阅读 · 1 评论 -
中心极限定理_达尔文的进化论正确吗?
一、进化论(Charles Darwin in 1868) 查尔斯·罗伯特·达尔文,英国生物学家,其“进化论”被列为19世纪自然科学的三大发现之一(其他两个是细胞学说、能量守恒转化定律),对人类有杰出的贡献。自然选择理论认为所有生物可能来自初始的一个鼻祖,通过环境隔离变化,衍生出万物。all life had its origin from one simple source,progressing to its highest form---man---自然选择(英语.原创 2021-03-26 15:13:20 · 178 阅读 · 0 评论 -
T分布在医药领域应用
学生t-分布可简称为t分布。其推导由威廉·戈塞于1908年首先发表,当时他还在都柏林的健力士酿酒厂工作。因为不能以他本人的名义发表,所以论文使用了学生(Student)这一笔名。之后t检验以及相关理论经由罗纳德·费雪的工作发扬光大,而正是他将此分布称为学生分布。要理解此文章,需要理解正太分布的基础知识,否则不能看懂。根据大数定理,样本越多,样本估算参数就越接近总体参数。但实际生活中,因为时间和费用,我们一般用小样本数据代替整体数据。T分布的特征|:T分布属性1:曲线下面总面积为1T分布属..原创 2021-03-25 18:54:55 · 1419 阅读 · 1 评论 -
Python教你找到最心仪的对象
规则单身妹妹到了适婚年龄,要选对象。候选男子100名,都是单身妹妹没有见过的。百人以随机顺序,从单身妹妹面前逐一经过。每当一位男子在单身妹妹面前经过时,单身妹妹要么选他为配偶,要么不选。如果选他,其余那些还没有登场的男子就都遣散回家,选配偶的活动也 over 了。如果不选,当下这名男子就离开,也就是 pass 掉此人,下一人登场。被pass 掉的,单身妹妹不可以反悔再从选。规则是,单身妹妹必须在这百人中选出一人做配偶,也就是说,如果前99人单身妹妹都看不中的话,她必须选择第100名男子为配偶,不管他..原创 2021-03-25 18:52:45 · 130 阅读 · 0 评论 -
Python basemap模拟导弹发射
今天Toby教你如何用python的basemap包模拟导弹发射在数据可视化过程中,我们常常需要将数据根据其采集的地理位置在地图上显示出来。比如说我们会想要在地图上画出城市,飞机的航线,乃至于军事基地等等。通常来说,一个地理信息系统都会带有这样的功能。今天我们讨论如何在Python上实现,并且使用免费的工具包。matplotlib是Python常用的数据绘制包。它基于numpy的数组运算功能。matplotlib绘图功能强大,可以轻易的画出各种统计图形,比如散点图,条行图,饼图等。matplotli原创 2021-03-25 18:51:05 · 799 阅读 · 1 评论 -
感悟:决定一个系统走势是多因素构成,而非单一因素决定
例如癌症,医生常说抽烟致癌,不要抽烟,但实际生活中抽烟长寿的人不少,我的姨婆九十多岁了,每日抽烟喝酒,身体也不错。决定癌症的因素很多,例如遗传,饮食,起居时间,居住环境,化工污染等等。下图转自一份医学研究,说明没有任何食物百分之百致癌或抑制癌症。什么人容易患癌症?当诸多不利因素累积,超过一定量后,患癌症概率大。我们假设一个数据挖掘的分类器cancer,分类器由六个因素组成,当六个因素得分总和超过3时为癌症,得分总和小于3时为非癌症。1表示是,0表示否。 抽烟=1分,非均衡饮食=1分,喝酒=1分,原创 2021-03-25 18:48:41 · 80 阅读 · 0 评论 -
孟德尔自由组合定理--计算机模拟
孟德尔(Gregor Johann Mendel)阿基米德会思考如何用这粒豌豆做支点来翘起地球;英国人希望次日醒来能顺着它的茎爬上天空;而游戏玩家们则会把豌豆种在家门口阻挡一大波僵尸的进攻……大约150多年前,有一名修道士却将它玩出了风格,玩出了水平,一不小心就奠定了现代生物学的三大基石之一。孟德尔(Gregor Johann Mendel)他就是“现代遗传学之父”——格雷戈尔·约翰·孟德尔。孟德尔在揭示了由一对遗传因子(或一对等位基因)控制的一对相对性状杂交的遗传规律——分离.原创 2021-03-25 18:46:35 · 1311 阅读 · 1 评论