数据挖掘(python)
文章平均质量分 72
a_achengsong
这个作者很懒,什么都没留下…
展开
-
文件转换为utf-8编码(python小脚本)
本人windows环境,平时从数据库导出数据或者从网上下载csv或txt数据后,会发现各种编码格式。导致有时候打开文件会乱码。为了方便,把文件统一改为utf-8编码,这样就减少了很多麻烦。故写个python小脚本,解决麻烦。以下为思路:在桌面建立空白文件夹,把需要转换编码的文件拖到里面;读取文件夹所有文件;然后以utf-8编码保存文件。以下为python 脚本;# 更改文件编码# 文件统一原创 2017-03-01 22:57:20 · 28510 阅读 · 3 评论 -
Detecting Insults in Social Commentary 数据分析报告(python)
# Detecting Insults in Social Commentary 数据分析报告报告摘要目标:本分析旨在利用文本数据判断一个评论是否为侮辱性评论。方法:对评论数据进行数据清洗、停止词处理、词干化基础上,构建词频矩阵,利用逻辑斯蒂回归和L1正则化的逻辑回归对评论是否为侮辱性评论进行判断。结论:对测试集数据进行测试后,发现模型具有一定的判断效果。原创 2016-05-07 11:13:30 · 1625 阅读 · 0 评论 -
Amazon Employee Access 数据分析报告(python)
Amazon Employee Access 数据分析报告报告摘要目标:本分析旨在利用Amazon的员工编号相关信息,来分析和预测当员工申请访问某个编号的资源时,是否被允许访问。方法: 在原有部分变量的基础上,利用特征工程的方法,新增了单变量、双变量、三变量、四变量出现的频率和变量出现的条件概率等变量,利用随机森林模型,对目标变量进行预测。结论: 一、对于训练集数据分析发现,各变量之间存在着原创 2016-05-07 15:45:36 · 5218 阅读 · 1 评论 -
个股与指数的回归分析(python)
个股与指数的回归分析原创 2016-05-07 09:42:51 · 24975 阅读 · 0 评论 -
评分模型的开发、部署、测试、文档说明全流程
评分模型的开发、部署、测试、文档说明全流程文章目录评分模型的开发、部署、测试、文档说明全流程1.使用xgboost训练模型,并保存。2.基于falsk框架,生成实时api接口,进行部署。3.api接口测试。3.1.postman进行测试3.2.使用测试脚本4.api文档xgboost评分模型调用接口接口描述接口说明1.请求URL:2.请求方式3.支持格式4.请求参数说明5.请求示例6.成功返回的...原创 2019-07-21 23:20:36 · 1880 阅读 · 0 评论 -
一行代码搞定信用评分模型(python)
欢迎大家,上一篇博客【信用卡评分模型(R语言)】详细的讲解了如何开发评分卡,这片博客就不再详细介绍,为方便开发评分卡,本人根据自己经验写了一个python包,导入此包后仅需一行代码即可成功制作评分卡,默认参数已经设置好,效果还可以,欢迎大家使用,如有疑问以及使用中出现BUG,可与我联系,欢迎交流学习。联系方式QQ:990020186包已上传至PYPI官网,可通过pip简易安装。网址:http...原创 2019-02-28 10:05:50 · 9633 阅读 · 5 评论 -
爬虫--爬取csdn消息并邮箱通知(python3)
之前有很多同学给我发消息,咨询相关问题,我都没能及时回复解答。主要原因是工作比较忙,博客没有每天登入查看消息。等到打开消息,看一些同学的消息,无奈都已经过去了多天。所以这里写了个小脚本,每天爬取博客消息通知,如果有新消息,就发送到个人邮箱提醒。代码如下:#Version: python3#Author: 程松#-*- coding: utf-8 -*-import urll...原创 2018-02-13 15:40:16 · 2588 阅读 · 2 评论 -
bagging和boosting(python代码实现)
分类算法很多,有的效果比较好,有的效果稍微差点。 这里还有一种“新”分类算法,就是把多个分类器组合成一个分类器,主要有bagging 和boosting两种。 bagging算法:从原始数据中随机抽取n个样本,重复s次,于是就有个s个训练集,每个训练集都可以训练出一个分类器,最终生成s个分类器,预测结果将有这些分类器投票决定(选择分类器投票结果中最多的类别作为最后预测结果)。代表的有随机森林。原创 2017-05-16 22:54:10 · 16954 阅读 · 1 评论 -
支持向量机SVM通俗理解(python代码实现)
这是第三次来“复习”SVM了,第一次是使用SVM包,调用包并尝试调节参数。听闻了“流弊”SVM的算法。第二次学习理论,看了李航的《统计学习方法》以及网上的博客。看完后感觉,满满的公式。。。记不住啊。第三次,也就是这次通过python代码手动来实现SVM,才让我突然对SVM不有畏惧感。希望这里我能通过简单粗暴的文字,能让读者理解到底什么是SVM,这货的算法思想是怎么样的。看之前千万不要畏惧,说到底就...原创 2017-05-11 02:42:08 · 88300 阅读 · 116 评论 -
决策树原理实例(python代码实现)
决策数(Decision Tree)在机器学习中也是比较常见的一种算法,属于监督学习中的一种。看字面意思应该也比较容易理解,相比其他算法比如支持向量机(SVM)或神经网络,似乎决策树感觉“亲切”许多。优点:计算复杂度不高,输出结果易于理解,对中间值的缺失值不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配的问题。使用数据类型:数值型和标称型。简单介绍完毕,让我们来通过一个例子让决策树“原创 2017-03-26 23:04:13 · 98157 阅读 · 21 评论 -
KNN算法原理(python代码实现)
kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类。 - 优点:精度高、对异常值不敏感、无数据输入假定。 - 缺点:计算复杂度高、空间复杂度高。 - 适用数据范围:数值型和标称原创 2017-03-14 22:42:28 · 2896 阅读 · 0 评论 -
逻辑回归logistic原理(python代码实现)
Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程,为最大化方程,利用牛顿梯度上升求解方程参数。优点:计算代价不高,易于理解和实现。缺点:容易欠拟合,分类精度可能不高。使用数据类型:数值型和标称型数据。原创 2017-04-08 20:43:39 · 51883 阅读 · 24 评论 -
朴素贝叶斯文本分类(python代码实现)
朴素贝叶斯(naive bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。优点:在数据较少的情况下仍然有效,可以处理多分类问题。缺点:对入输入数据的准备方式较为敏感。使用数据类型:标称型数据。原创 2017-04-07 00:02:48 · 21870 阅读 · 4 评论 -
数据库中的空值与NULL的区别以及python中的NaN和None
数据库里面的”空值”有两种:空字符(“”)、空值(NULL)。 两种存储方式在数据库中都很常见,实际中根据业务或者个人习惯可以用这两种方式来存储“空值”。那这两种到底有什么区别,下面通过例子直接来展示原创 2017-03-06 21:41:50 · 34871 阅读 · 0 评论 -
Titanic数据分析报告(python)
Titanic数据分析报告原创 2016-05-07 10:55:42 · 13630 阅读 · 1 评论