自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 python实现二分类的卡方分箱

解决的问题:1、实现了二分类的卡方分箱;2、实现了最大分组限定停止条件,和最小阈值限定停止条件;问题,还不太清楚,后续补充。1、自由度k,如何来确定,卡方阈值的自由度为 分箱数-1,显著性水平可以取10%,5%或1%算法扩展:1、卡方分箱除了用阈值来做约束条件,还可以进一步的加入分箱数约束,以及最小箱占比,坏人率约束等。2、需要实现更多分类的卡方分箱算法; 具体代码如下:...

2018-11-28 19:19:44 3478 1

原创 pandas 取出dataframe中重复的所有数据(关于某字段),并排序,便于比较数据的不同点。

       当需要的是DataFrame那些重复数据,尤其是要比较重复数据的异同时,就需要将重复数据提取出来时,再关联原数据,并做排序,进行比较。方法一、主要思路:1. 采用drop_duplicates对数据去两次重,一次将重复数据保留一个(keep='first),另一次将重复数据全部去除(keep=False); 2. 合并两者,并去重,得到重复的字段;3、由重复的字段,得...

2018-11-28 15:11:49 13776 1

原创 python,list元素倒置

 python,list元素倒置,有以下三种方法: #list 元素倒置,反向排序# 方法一 利用list的分片操作,不改变原listx = [1, 2, 3, 4, 5]print(x[::-1]) # 方法二 list.reverse()。改变原list,无返回x = [1, 2, 3, 4, 5]x.reverse()print(x) # 方法三 re...

2018-11-22 14:07:30 11815

转载 机器学习算法的随机数据生成

转自:https://www.cnblogs.com/pinard/p/6047802.html  感谢。在学习机器学习算法的过程中,我们经常需要数据来验证算法,调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能,我们可以自己生成适合某一种模型的数据,用随机数据来做清洗,归一化,转换,然后选择模型与算法做拟...

2018-11-18 16:37:50 301 1

转载 html字体颜色 html中设置字体颜色代码 字体颜色获取

html字体颜色 html中设置字体颜色代码 字体颜色获取 html字体颜色设置更改,html设置字体颜色代码方法有哪些DIVCSS5为大家介绍在html中设置字体颜色方法,字体颜色修改方法,字体颜色如何准确获取。一、html font字体颜色设置   -   TOP在HTML中我们使用font标签即可对字体内容设置颜色。1、font语法: <font c...

2018-10-31 09:50:59 86939

原创 linux 如何查看还有多少,可用内存空间

有两种方式:1、free -m                    total       used       free     shared    buffers     cachedMem:         19988       8131      11857          0        281        370-/+ buffers/cache:       7...

2018-10-24 11:01:44 33485

转载 Ubuntu修改时区和更新时间

转自:https://blog.csdn.net/zhengchaooo/article/details/79500032  稍作修改。先查看当前系统时间root@ubuntu:/# date -R 结果时区是:-0500我需要的是东八区,这儿显示不是,所以需要设置一个时区1.运行tzselectroot@ubuntu:/# tzselect在这里我们选...

2018-09-29 08:49:48 999

转载 特征工程之分箱

转自:https://blog.csdn.net/pylady/article/details/78882220一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化,离散化通常采用分箱法。分箱的重要性及其优势离散特征的增加和减少都很容易,易于模型的快速迭代; 稀...

2018-08-28 15:31:18 1061

转载 特征工程到底是什么? - 城东的回答

作者:城东链接:https://www.zhihu.com/question/28641663/answer/110165221来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。我来写一个入门级的实践吧,为了保持连贯性,引用了全文:作者:城东链接:特征工程到底是什么? - 城东的回答来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明...

2018-08-28 14:52:35 783

转载 【译文】特征选择方法导论(如何选取合适的变量)

【译文】特征选择方法导论(如何选取合适的变量)作者 SAURAV KAUSHIK译者 钱亦欣引言我时常以参加竞赛的方式来磨练自己的机器学习技能,它能让你更清楚地了解自己的水平。一开始,我以为算法就是机器学习的一切,知道采用哪种模型就能走上人生巅峰。但后来我发觉自己拿衣服了,竞赛的赢家们使用的算法和其他人并无二致。而后,我认为这些人一定有很牛逼的机器,但当我发现有的top选手建模用的...

2018-08-28 14:33:34 1498

转载 机器学习之特征工程

机器学习之特征工程转自:http://www.csuldw.com/2015/10/24/2015-10-24%20feature%20engineering/ 在这个振奋人心的程序员节日里,我决定认真地写一篇文章来纪念一下自己这长达六年程序员史。o(╯□╰)o本文是一篇关于特征工程的总结类文章,如有不足之处或理解有偏差的地方,还望多多指教。首先,给一张特征工程的思维导图吧...

2018-08-28 14:09:45 269

转载 【转】几种常用的特征选择方法

 结合Scikit-learn介绍几种常用的特征选择方法 原文  http://dataunion.org/14072.html   https://blog.csdn.net/kebu12345678/article/details/78437118主题 特征选择 scikit-learn特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性...

2018-08-28 09:55:06 588

转载 mongodb find条件选择器 常用语句

本文转自:https://blog.csdn.net/u012714981/article/details/53382558  感谢。mongodb.find 常用的条件设置语句:1.简单查询:db.user.find({name:'11111',age;20});2.or选择器用法db.user.find({$or:[{'name':'lv'},{'name':'chen'}]})3.$gt(&...

2018-05-08 11:41:55 502

原创 【转】MySQL workbench外网通过PuTTY设置SSH的tunnels远程访问内网服务器中的MySQL

问题描述:为了数据安全,一些服务器增加了安全协议(如SSH),外网不能直接访问服务器。服务器支持SSH远程登录功能时,通过mysql的图形界面工具(MySQL workbench)访问服务器里的mysql数据库,需要进行一些配置。详细步骤如下:1.在自己的电脑上(不是服务器)安装PuTTY。2.打开PuTTY,如下图,默认是session页面,在session页面的Host Name中输入服务器的...

2018-05-04 16:34:29 836

转载 设置 jupyter notebook 可远程访问

首先是要 安装 Anaconda 。默认情况下,安装好 Anaconda 后打开 jupyter notebook, 访问本地 localhost:8888 即可。但是如果要访问另一台机器,比如远端服务器上的 notebook, 即默认是不支持 172.104.105.119:8888 这样的访问,需要额外配置。设置 jupyter notebook 可远程访问的官方指南在这里,在远端服务器上执行...

2018-05-03 13:58:40 588

转载 【转】怎样将本地的文件上传到linux

文章转自:https://zhidao.baidu.com/question/1605311824649821827.html 感谢。SecureCRT与SshClient不同的就是,SecureCRT没有图形化的文件传输工具,不过也不影响,用命令来实现的话,其实会方便快捷很多。第一种方式:上传文件只需在shell终端仿真器中输入命令“rz”,即可从弹出的对话框中选择本地磁盘上的文件,利用Zm...

2018-04-24 18:21:13 1390

转载 [转]工商银行客户等级怎么划分?工商银行客户等级标准

工商银行客户等级怎么划分?工商银行客户等级标准,具体详细内容银行信息港小编为你报道。  工商银行是第一个开创了中国网上申请信用卡的先例,之前还没有哪有银行可以通过这样的渠道申请信用卡,虽然申请下来的信用卡额度普遍都比较低,但也算是为国人做了一件好事情;第二发明了星级客户的名称,这个大大刺激了高级用户。  那什么是星级客户呢?星级分为贡献星级和服务星级。  个人客户按贡献星级细分为七星级客户、六星级...

2018-04-16 09:34:35 7904

转载 【转】PMML模型文件在机器学习的实践经验

转自:https://blog.csdn.net/hopeztm/article/details/78321700  感谢另外也参考以下:https://blog.csdn.net/u010035907/article/details/72779168  感谢查看jpmml的说明文档:https://github.com/jpmml/jpmml-evaluator其它参考资料1、XGBoost模型...

2018-04-04 14:49:58 983 1

转载 【转】python下导入自己定义的模块的方法

本文转自,https://blog.csdn.net/qqzhulinshenchu/article/details/46986285 感谢。        我们知道在使用python开发程序时,python给我们提供了功能强大的内建函数,而且我们调用他们的方法也很简单,先通过import语句导入相关模块然后在利用xxx.yyy方式使用该模块下的函数,那我们如何创建并导入自己写的程序呢?本文我就跟...

2018-04-01 11:43:32 411

转载 【转】Python数据可视化利器Matplotlib,colors系列,颜色的指定形式

转自,http://baijiahao.baidu.com/s?id=1585181930494946741&wfr=spider&for=pc  感谢。        按照计划,从今天开始我们将一起学习matplotlib中关于颜色的相关内容。虽然说起颜色大家都比较熟悉,但是其中的内容还是非常的多,所以我们将内容分成多个部分从简到繁依次讲解。废话不多说,直接进入今天的主题吧!当我...

2018-03-30 18:13:01 13010

转载 【转】K-means聚类最优k值的选取

以下博文转自:https://blog.csdn.net/qq_15738501/article/details/79036255  感谢最近做了一个数据挖掘的项目,挖掘过程中用到了K-means聚类方法,但是由于根据行业经验确定的聚类数过多并且并不一定是我们获取到数据的真实聚类数,所以,我们希望能从数据自身出发去确定真实的聚类数,也就是对数据而言的最佳聚类数。为此,我查阅了大量资料和博客资源,总...

2018-03-30 15:10:16 18064

转载 【转】python csv 格式文件 中文乱码问题解决方法

    我遇到的问题是使用pandas的DataFrame to_csv方法实现csv文件输出,但是遇到中文乱码问题,已验证的正确的方法是:df.to_csv("cnn_predict_result.csv",encoding="utf_8_sig")...

2018-03-28 15:49:48 318

转载 [转]数据挖掘在金融行业十大应用

目前数据挖掘在各行各业应用广泛,尤其在金融、保险、电子商务和电信方面得到了很好的效果,本文对金融行业数据挖掘应用做了一个简单的总结,目的是想起到抛砖引玉的作用,欢迎各位大牛拍砖。一:风险控制(贷款偿还预测和客户信用评价)有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要的因素和非相关因素。例如,与货款偿还风险相关的因素,包括货...

2018-03-26 16:42:51 2881

转载 【转】银行客户分类

让有钱人越有钱,为有钱人提供个性化的服务! 商业银行的客户分类体系就是要将前述商业银行客户评价的两个准则相互结合,形成客户分类体系的一个二维矩阵:风险——价值矩阵。它意味着在强调风险接受和强调利润贡献之间进行客户选择。风险最低、收益最大的举措是争取客户终生价值最大的AAA级客户,即具有高信用的黄金客户。而风险高、收益低的客户可能是银行要逐渐抛弃的。      客户分类体系映射出的是预期风险和客户利...

2018-03-23 13:55:30 5418

转载 为什么你用不好Numpy的random函数?

为什么你用不好Numpy的random函数?在python数据分析的学习和应用过程中,经常需要用到numpy的随机函数,由于随机函数random的功能比较多,经常会混淆或记不住,下面我们一起来汇总学习下。import numpy as np1 numpy.random.rand()numpy.random.rand(d0,d1,…,dn)rand函数根据给定维度生成[0,1)之间的数据,包含0,...

2018-03-22 08:40:23 186

转载 Centos7安装Anaconda

[转载]https://www.jianshu.com/p/e6ae8905833d  感谢下载Anaconda[root@master tmp]# wget https://repo.continuum.io/archive/Anaconda2-4.4.0-Linux-x86_64.sh进入安装文件存放目录[root@master tmp]# ll-rw-r--r-- 1 root root...

2018-03-05 15:06:30 592

转载 银行金融领域,如何利用数据挖掘对客户进行深入分析?

原文链接 : http://www.36dsj.com/archives/2705首先看一下数据挖掘在客户分析中的应用,数据挖掘主要应用于两大领域:客户智能和风险管理。客户智能分为数据层、挖掘层和营销层,数据挖掘属于中间这一层,是服务支撑层,为营销提供支持。数据挖掘传统的一些领域,包括客户细分、营销预测、产品关联、实时分析、客户提升、价值分析,以及现在随着大数据技术的兴起,我们会做实时分析,已经有...

2018-02-27 22:38:50 6346

转载 windows python MySQL-python安装过程

问题表述:pip install MySQL-python==1.2.5出现如下报错:C:\Users\Administrator\AppData\Local\Programs\Common\Microsoft\Visual C++ for Python\9.0\VC\Bin\amd64\cl.exe /c /nologo /Ox /MD /W3 /GS- /DNDEBUG -Dversion_i...

2018-02-10 22:41:08 482 1

原创 请问,superset如何链接带有SSH通道的数据库?

请问,superset如何链接带有SSH通道的数据库?谢谢。

2018-02-09 19:08:00 519 1

转载 如何更新ubuntu系统

1、sudo apt-get update   获得更新列表2、sudo apt-get dist-upgrade  更新来源:https://jingyan.baidu.com/article/27fa7326e8df8a46f8271f1a.html

2017-11-21 14:03:05 397

转载 vi/vim下如何修改,并保存只有只读权限的文件

用vi修改好文件后,发现文件对你来说,是只读权限的,可以使用下面的命令进行强制保存该文件。:w !sudo tee %from:http://blog.chinaunix.net/uid-25305993-id-125529.html

2017-10-30 15:21:08 6843

转载 ubuntu 设置定时任务

【转】http://www.cnblogs.com/xielisen/p/6442035.html  谢礼森ubuntu 设置定时任务crontab -l  #查看详情crontab -e #设置定时任务 *  *  *  *  *  command 分 时 日 月 周 命令 第1列表示分钟1~59 每分钟用*或者 */1表示 第

2017-10-23 21:39:17 638

转载 ubuntu如何使用root权限

Ubuntu 有一个与众不同的特点,那就是初次使用时,你无法作为root来登录系统,为什么会这样?这就要从系统的安装说起。对于其他Linux系统来说,一般在安装过程就设定root密码,这样用户就能用它登录root帐户或使用su命令转换到超级用户身份。与之相反,Ubuntu默认安装时,并没有给root用户设置口令,也没有启用root帐户。问题是要想作为root用户来运行命令该怎么办呢?没关系,我们可

2017-10-22 15:26:05 1551

转载 ubuntu安装python一些安装包

sudo apt-get install python-pipsudo pip install distributesudo pip install nosesudo pip install virtualenvsudo pip install lpthw.web

2017-10-20 15:41:25 2339

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除