自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

原创 集成学习Adaboost算法及python实现及sklearn包的调用

集成方法(ensemble method)集成方法主要包括Bagging和Boosting两种方法。bagging 基于数据重抽样的分类器构建方法在Bagging方法中,主要通过对训练数据集进行随机采样,以重新组合成不同的数据集,新数据集和旧数据集大小相等,利用弱学习算法对不同的新数据集进行学习,得到一系列的预测结果,对这些预测结果做平均或者投票做出最终的预测。注:随机森林算法是基于Baggin

2017-12-28 14:20:25 20479

原创 机器学习之奇异值分解SVD及应用于协同过滤推荐和LSA潜在语义分析

隐形语义分析LSA隐形语义分析(LSA)是一种自然语言处理中用到的方法,又称为隐形语义索引 LSI,其通过“矢量语义空间”来提取文档与词中的“概念”,进而分析文档与词之间的关系。LSA的基本假设是,如果两个词多次出现在同一文档中,则这两个词在语义上具有相似性。LSA使用大量的文本上构建一个矩阵,这个矩阵的一行代表一个词,一列代表一个文档,矩阵元素代表该词在该文档中出现的次数,然后再此矩阵上使用奇异值

2017-12-22 12:07:12 1395

原创 R解析文件--找出常用地址

解析文件–找出常用地址文件数据为三列,电话,地址,访问时间 要求输出每个电话的常用地址

2017-12-13 17:54:58 570

原创 逻辑回归及其python实现

逻辑回归原理sigmod函数下图给出了sigmod 函数在不同坐标尺度下的两条曲线图。当 x 为 0 日牝 Sigmoid 函数值为 0.5 。 随着 1 的增大,对应的sigmod值将逼近于 1; 而随着 x 的减小, Sigmoid 值将逼近于 0 。如果横坐标 刻度足够大(下图 ),sigmod 函数看起来很像一个阶跃函数。原理 上图,将y作为正例的可能性,则1-y是反例的可能性•

2017-12-29 16:12:50 923

原创 评估方法与CrossValidation交叉验证

评估方法关键:怎么获得“测试集”(test set) ?测试集应该与训练集“互斥”常见方法:留出法 (hold-out)交叉验证法 (cross validation)自助法 (bootstrap)留出法注意: 保持数据分布一致性 (例如: 分层采样) 多次重复划分 (例如: 100次随机划分) 测试集不能太大、不能太小 (例如:1/5~1/3)k-折交叉验证法自助法 sklearn

2017-12-29 14:29:01 4270

原创 python返回连续递增子序列的长度

针对全是数字的序列如电话号码 在反欺诈的运用里,很重要的一部分是电话号码欺诈 我们认为电话号码中出现“12345”就是欺诈号码 那么如何找出这种欺诈号码?'''函数找出电话号码中诸如’123456‘的连续递增子序列的长度'''def LIS(l): n=len(l) F=[1]*n for i in range(1,n): if int(l[i]

2017-12-27 14:07:27 2615

原创 itertools学习笔记

itertools用于高效循环的迭代函数集合

2017-12-22 17:07:32 382

原创 Python利用matplotlib做图中图及次坐标轴

图中图次坐标轴两个Y轴怎么画

2017-12-20 11:54:13 20115

原创 python之subplot,subplot2grid,gridspec,subpplots分图、分格展示

subplot分图展示均匀分图matplotlib 是可以组合许多的小图, 放在一张大图里面显示的. 使用到的方法叫作 subplot. 使用import导入matplotlib.pyplot模块, 并简写成plt. 使用plt.figure创建一个图像窗口.import matplotlib.pyplot as pltplt.figure()使用plt.subplot来创建小图. plt.s

2017-12-19 18:23:12 17906 2

原创 python 3d图

首先在进行 3D Plot 时除了导入 matplotlib ,还要额外添加一个模块,即 Axes 3D 3D 坐标轴显示:

2017-12-19 17:37:02 6033

原创 python与R画柱形图

python利用matplotlib.pyplot画柱形图:R画柱形图

2017-12-19 16:14:46 1016

原创 散点图的python和R展现以及热力图与向日葵散点图

散点图的python和R展现以及热力图与向日葵散点图

2017-12-19 14:58:54 6700

原创 matplotlib学习之图例,标注,透明度

主要为legend图例,annotate(),text()标注,以及tick()能见度

2017-12-19 11:57:08 35687 2

转载 matplotlib数据展现的基本用法

主要是figure图像和坐标轴的设置。

2017-12-19 11:30:13 1116

转载 pandas plot出图

使用的 matplotlib 仅仅是用来 show 图片的, 即 plt.show()。

2017-12-15 14:07:05 11670

转载 pandas学习之合并merge

pandas中的merge和concat类似,但主要是用于两组有key column的数据,统一索引的数据. 通常也被用在Database的处理当中.

2017-12-15 11:33:18 3169

原创 pandas学习之concat合并及读写CSV文件

读取CSV文件读取中文的CSV文件中有中文,用“UTF-8”会出现乱码问题,解决:

2017-12-15 11:03:39 11707

原创 json学习以及csv和json转化

资料:https://docs.python.org/2/library/json.html JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于人阅读和编写读取CSV这里写代码片1**. 将 Python 对象编码成 JSON 字符串**Encode过程,是把python对象转换成json对象的一个过程,常用的两个函

2017-12-12 11:51:00 923

原创 CSV模块学习

**csv模块**

2017-12-12 10:16:00 622

评分卡_分箱

定义了多种分箱,也便于做单变量分析。决策时分箱,自定义阈值分箱等等。

2018-11-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除