自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (4)
  • 收藏
  • 关注

原创 一行代码搞定信用评分模型(python)

欢迎大家,上一篇博客【信用卡评分模型(R语言)】详细的讲解了如何开发评分卡,这片博客就不再详细介绍,为方便开发评分卡,本人根据自己经验写了一个python包,导入此包后仅需一行代码即可成功制作评分卡,默认参数已经设置好,效果还可以,欢迎大家使用,如有疑问以及使用中出现BUG,可与我联系,欢迎交流学习。联系方式QQ:990020186包已上传至PYPI官网,可通过pip简易安装。网址:http...

2019-02-28 10:05:50 6912 5

原创 信用评分模型(R语言)

信用评分2016年1月10日本文详细的介绍了信用评分卡的开发流程,开发语言为R语言,python版本请见:一行代码搞定信用评分模型(python)python版实例和数据请见我的github:https://github.com/chengsong990020186/CreditScoreModel,如觉得实用就点下star,欢迎大家一起学习交流进步。一、数据准备1、 问题的准...

2016-04-23 10:45:57 84082 87

原创 MNIST手写数字识别(tensorflow)

MNIST手写数字识别(tensorflow)最简单的神经网络,仅有一层全链接层,准确率可达0.9226import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("MNIST_data/", one_hot=True)...

2019-07-31 23:13:01 202

原创 评分模型的开发、部署、测试、文档说明全流程

评分模型的开发、部署、测试、文档说明全流程文章目录评分模型的开发、部署、测试、文档说明全流程1.使用xgboost训练模型,并保存。2.基于falsk框架,生成实时api接口,进行部署。3.api接口测试。3.1.postman进行测试3.2.使用测试脚本4.api文档xgboost评分模型调用接口接口描述接口说明1.请求URL:2.请求方式3.支持格式4.请求参数说明5.请求示例6.成功返回的...

2019-07-21 23:20:36 988

原创 爬虫--爬取csdn消息并邮箱通知(python3)

之前有很多同学给我发消息,咨询相关问题,我都没能及时回复解答。主要原因是工作比较忙,博客没有每天登入查看消息。等到打开消息,看一些同学的消息,无奈都已经过去了多天。所以这里写了个小脚本,每天爬取博客消息通知,如果有新消息,就发送到个人邮箱提醒。代码如下:#Version: python3#Author: 程松#-*- coding: utf-8 -*-import urll...

2018-02-13 15:40:16 2023 2

原创 bagging和boosting(python代码实现)

分类算法很多,有的效果比较好,有的效果稍微差点。 这里还有一种“新”分类算法,就是把多个分类器组合成一个分类器,主要有bagging 和boosting两种。 bagging算法:从原始数据中随机抽取n个样本,重复s次,于是就有个s个训练集,每个训练集都可以训练出一个分类器,最终生成s个分类器,预测结果将有这些分类器投票决定(选择分类器投票结果中最多的类别作为最后预测结果)。代表的有随机森林。

2017-05-16 22:54:10 10451 1

原创 支持向量机SVM通俗理解(python代码实现)

这是第三次来“复习”SVM了,第一次是使用SVM包,调用包并尝试调节参数。听闻了“流弊”SVM的算法。第二次学习理论,看了李航的《统计学习方法》以及网上的博客。看完后感觉,满满的公式。。。记不住啊。第三次,也就是这次通过python代码手动来实现SVM,才让我突然对SVM不有畏惧感。希望这里我能通过简单粗暴的文字,能让读者理解到底什么是SVM,这货的算法思想是怎么样的。看之前千万不要畏惧,说到底就...

2017-05-11 02:42:08 54134 85

原创 逻辑回归logistic原理(python代码实现)

Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程,为最大化方程,利用牛顿梯度上升求解方程参数。优点:计算代价不高,易于理解和实现。缺点:容易欠拟合,分类精度可能不高。使用数据类型:数值型和标称型数据。

2017-04-08 20:43:39 34047 21

原创 朴素贝叶斯文本分类(python代码实现)

朴素贝叶斯(naive bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。优点:在数据较少的情况下仍然有效,可以处理多分类问题。缺点:对入输入数据的准备方式较为敏感。使用数据类型:标称型数据。

2017-04-07 00:02:48 17068 3

原创 5分钟,6行代码教你写爬虫!(python)

5分钟,6行代码教你写会爬虫! 适用人士:对数据量需求不大,简单的从网站上爬些数据。 好,不浪费时间了,开始! 先来个例子:输入以下代码(共6行)import requestsfrom lxml import htmlurl='https://movie.douban.com/' #需要爬数据的网址page=requests.Session().get(url) tree=html.f

2017-03-30 20:52:51 142664 45

原创 决策树原理实例(python代码实现)

决策数(Decision Tree)在机器学习中也是比较常见的一种算法,属于监督学习中的一种。看字面意思应该也比较容易理解,相比其他算法比如支持向量机(SVM)或神经网络,似乎决策树感觉“亲切”许多。优点:计算复杂度不高,输出结果易于理解,对中间值的缺失值不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配的问题。使用数据类型:数值型和标称型。简单介绍完毕,让我们来通过一个例子让决策树“

2017-03-26 23:04:13 66385 14

原创 KNN算法原理(python代码实现)

kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类。 - 优点:精度高、对异常值不敏感、无数据输入假定。 - 缺点:计算复杂度高、空间复杂度高。 - 适用数据范围:数值型和标称

2017-03-14 22:42:28 2517

原创 数据库中的空值与NULL的区别以及python中的NaN和None

数据库里面的”空值”有两种:空字符(“”)、空值(NULL)。 两种存储方式在数据库中都很常见,实际中根据业务或者个人习惯可以用这两种方式来存储“空值”。那这两种到底有什么区别,下面通过例子直接来展示

2017-03-06 21:41:50 30390

原创 文件转换为utf-8编码(python小脚本)

本人windows环境,平时从数据库导出数据或者从网上下载csv或txt数据后,会发现各种编码格式。导致有时候打开文件会乱码。为了方便,把文件统一改为utf-8编码,这样就减少了很多麻烦。故写个python小脚本,解决麻烦。以下为思路:在桌面建立空白文件夹,把需要转换编码的文件拖到里面;读取文件夹所有文件;然后以utf-8编码保存文件。以下为python 脚本;# 更改文件编码# 文件统一

2017-03-01 22:57:20 23586 3

原创 Adative-lasso+灰色预测(R)

最近在看特征的选择,看到lasso对特征选择不错,下面直接上干货数据为广州统计年检2015年数据目标:1)梳理影响地方财政收入的关键特征,分析、识别影响地方财政收入的关键特征的选择模型;2)结合目标1的因素分析,对广州市2015年的财政总收入及各个类别收入进行预测。下面为R语言代码部分head(data)#...

2016-08-19 15:03:13 6310 5

原创 支持向量机SVM算法原理及应用(R)

只要接触到数据挖掘/机器学习,相比都会听过“支持向量机”的大名。在机器学习领域,支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析。SVM涉及的知识面非常广,目标函数、优化过程、并行方法、算法收敛性、样本复杂度等。学习SVM可以看《统计学习方法》、Andrew Ng支持向量机等,这里推荐一个博客,讲的非常详细,我就不搬过...

2016-08-17 16:37:25 44421 3

原创 K-means算法原理以及应用(R)

K-means是一种无监督学习算法,是聚类算法中最简单的一种了。不同与一些分类的监督学习算法,比如逻辑回归、SVM、随机森林等,k-means聚类无需给定Y变量,只有特征X。下面是k-means算法原理及思想。在聚类问题中,给我们的训练样本是,每个,没有了y。 K-means算法是将样本聚类成k个簇(cluster),具体算法描述如下: 1、 随机选取k个聚类质心...

2016-08-16 23:58:29 24080 2

原创 简单的文本挖掘-用于QQ聊天记录(R)

平时的交流很多都在QQ上,QQ交流已经离不开日常的生活,这里我用R来分析QQ聊天记录,看看平时都聊了什么。首先介绍下用的文本挖掘的包:Rwordseg 一个 R 环境下的中文分词工具,使用 rJava 调用 Java 分词工具 Ansj。该包需配合rJava包一起使用。详见李舰老师博客:http://jianl.org/Rwordseg包不能直接install.packages(...

2016-08-04 19:26:45 9386 4

转载 奇异值分解及几何意义

PS:一直以来对SVD分解似懂非懂,此文为译文,原文以细致的分析+大量的可视化图形演示了SVD的几何意义。能在有限的篇幅把这个问题讲解的如此清晰,实属不易。原文举了一个简单的图像处理问题,简单形象,真心希望路过的各路朋友能从不同的角度阐述下自己对SVD实际意义的理解,比如 个性化推荐中应用了SVD,文本以及Web挖掘的时候也经常会用到SVD。英文原文:We recommend a singul

2016-07-26 18:50:53 906

原创 logistic回归报错问题:Warning messages: 1: glm.fit:算法没有聚合 2: glm.fit:拟合機率算出来是数值零或一

logistic回归的时候报错问题包括下面两种Warning: glm.fit: algorithm did not convergeWarning: glm.fit: fitted probabilities numerically 0 or 1 occurredWarning messages:1: glm.fit:算法没有聚合2: glm.fit:拟合機率算出来是数值...

2016-07-26 10:40:48 36877 1

原创 机器学习与数据挖掘学习之路

机器学习与数据挖掘学习之路这是我个人在学习数据挖掘的时候,通过XMIND整理的学习过程。里面有几条路线,希望能给想学习数据挖掘同学提供一些帮助。不废话了,直接上图:

2016-06-23 10:39:44 2473 1

原创 ROC曲线以及评估指标F1-Score, recall, precision-整理版

最近一直在看ROC曲线,查阅了一些资料,并进行了整理,文章结尾有原资料链接。希望能自己和各位节约时间来找资料,花更多的时间来学习。ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣 。ROC曲线怎么来的呢,我们来看经典的混淆矩阵:ROC曲线一般的横轴是FPR,纵轴是F

2016-05-26 19:03:12 16915

转载 贝叶斯

目录0. 前言 1. 历史     1.1 一个例子:自然语言的二义性     1.2 贝叶斯公式 2. 拼写纠正 3. 模型比较与贝叶斯奥卡姆剃刀     3.1 再访拼写纠正     3.2 模型比较理论(Model Comparasion)与贝叶斯奥卡姆剃刀(Bayesian Occam’s Razor)     3.3 最小描述长度原则    

2016-05-23 11:28:44 1372

转载 PCA的数学原理

PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。

2016-05-10 16:50:37 816

原创 Amazon Employee Access 数据分析报告(python)

Amazon Employee Access 数据分析报告报告摘要目标:本分析旨在利用Amazon的员工编号相关信息,来分析和预测当员工申请访问某个编号的资源时,是否被允许访问。方法: 在原有部分变量的基础上,利用特征工程的方法,新增了单变量、双变量、三变量、四变量出现的频率和变量出现的条件概率等变量,利用随机森林模型,对目标变量进行预测。结论: 一、对于训练集数据分析发现,各变量之间存在着

2016-05-07 15:45:36 3785 1

原创 Detecting Insults in Social Commentary 数据分析报告(python)

# Detecting Insults in Social Commentary 数据分析报告报告摘要目标:本分析旨在利用文本数据判断一个评论是否为侮辱性评论。方法:对评论数据进行数据清洗、停止词处理、词干化基础上,构建词频矩阵,利用逻辑斯蒂回归和L1正则化的逻辑回归对评论是否为侮辱性评论进行判断。结论:对测试集数据进行测试后,发现模型具有一定的判断效果。

2016-05-07 11:13:30 1360

原创 Titanic数据分析报告(python)

Titanic数据分析报告

2016-05-07 10:55:42 11762 1

原创 个股与指数的回归分析(python)

个股与指数的回归分析

2016-05-07 09:42:51 21140

训练和测试数据

压缩包里面为csv格式的训练集以及测试集数据,欢迎下载~

2018-03-06

kaggle信用卡评分数据

本文件为kaggle中的信用评分数据,如不方便在kaggle上下载的,可在这里下载。 -- 下载资源需要2分,这是CSND的最低设置,各位只能自行想办法了==!

2018-01-29

机器学习与数据挖掘学习之路

机器学习与数据挖掘学习之路清晰版

2016-06-23

手写数字识别数据

2017-03-14

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除