2017年12月_changzoe

原创集成学习Adaboost算法及python实现及sklearn包的调用

集成方法（ensemble method）集成方法主要包括Bagging和Boosting两种方法。bagging 基于数据重抽样的分类器构建方法在Bagging方法中，主要通过对训练数据集进行随机采样，以重新组合成不同的数据集，新数据集和旧数据集大小相等，利用弱学习算法对不同的新数据集进行学习，得到一系列的预测结果，对这些预测结果做平均或者投票做出最终的预测。注：随机森林算法是基于Baggin

2017-12-28 14:20:25 20479

原创机器学习之奇异值分解SVD及应用于协同过滤推荐和LSA潜在语义分析

隐形语义分析LSA隐形语义分析（LSA）是一种自然语言处理中用到的方法，又称为隐形语义索引 LSI，其通过“矢量语义空间”来提取文档与词中的“概念”，进而分析文档与词之间的关系。LSA的基本假设是，如果两个词多次出现在同一文档中，则这两个词在语义上具有相似性。LSA使用大量的文本上构建一个矩阵，这个矩阵的一行代表一个词，一列代表一个文档，矩阵元素代表该词在该文档中出现的次数，然后再此矩阵上使用奇异值

2017-12-22 12:07:12 1395

原创 R解析文件--找出常用地址

解析文件–找出常用地址文件数据为三列，电话，地址，访问时间要求输出每个电话的常用地址

2017-12-13 17:54:58 570

原创逻辑回归及其python实现

逻辑回归原理sigmod函数下图给出了sigmod 函数在不同坐标尺度下的两条曲线图。当 x 为 0 日牝 Sigmoid 函数值为 0.5 。随着 1 的增大，对应的sigmod值将逼近于 1; 而随着 x 的减小， Sigmoid 值将逼近于 0 。如果横坐标刻度足够大（下图），sigmod 函数看起来很像一个阶跃函数。原理上图，将y作为正例的可能性，则1-y是反例的可能性•

2017-12-29 16:12:50 923

原创评估方法与CrossValidation交叉验证

评估方法关键：怎么获得“测试集”(test set) ？测试集应该与训练集“互斥”常见方法：留出法 (hold-out)交叉验证法 (cross validation)自助法 (bootstrap)留出法注意： 保持数据分布一致性（例如: 分层采样) 多次重复划分 (例如: 100次随机划分) 测试集不能太大、不能太小 (例如：1/5~1/3)k-折交叉验证法自助法 sklearn

2017-12-29 14:29:01 4270

原创 python返回连续递增子序列的长度

针对全是数字的序列如电话号码在反欺诈的运用里，很重要的一部分是电话号码欺诈我们认为电话号码中出现“12345”就是欺诈号码那么如何找出这种欺诈号码？'''函数找出电话号码中诸如’123456‘的连续递增子序列的长度'''def LIS(l): n=len(l) F=[1]*n for i in range(1,n): if int(l[i]

2017-12-27 14:07:27 2615

原创 itertools学习笔记

itertools用于高效循环的迭代函数集合

2017-12-22 17:07:32 382

原创 Python利用matplotlib做图中图及次坐标轴

图中图次坐标轴两个Y轴怎么画

2017-12-20 11:54:13 20115

原创 python之subplot,subplot2grid,gridspec,subpplots分图、分格展示

subplot分图展示均匀分图matplotlib 是可以组合许多的小图, 放在一张大图里面显示的. 使用到的方法叫作 subplot. 使用import导入matplotlib.pyplot模块, 并简写成plt. 使用plt.figure创建一个图像窗口.import matplotlib.pyplot as pltplt.figure()使用plt.subplot来创建小图. plt.s

2017-12-19 18:23:12 17906 2

原创 python 3d图

首先在进行 3D Plot 时除了导入 matplotlib ，还要额外添加一个模块，即 Axes 3D 3D 坐标轴显示：

2017-12-19 17:37:02 6033

原创 python与R画柱形图

python利用matplotlib.pyplot画柱形图：R画柱形图

2017-12-19 16:14:46 1016

原创散点图的python和R展现以及热力图与向日葵散点图

散点图的python和R展现以及热力图与向日葵散点图

2017-12-19 14:58:54 6700

原创 matplotlib学习之图例，标注，透明度

主要为legend图例，annotate(),text()标注，以及tick（）能见度

2017-12-19 11:57:08 35687 2

转载 matplotlib数据展现的基本用法

主要是figure图像和坐标轴的设置。

2017-12-19 11:30:13 1116

转载 pandas plot出图

使用的 matplotlib 仅仅是用来 show 图片的, 即 plt.show()。

2017-12-15 14:07:05 11670

转载 pandas学习之合并merge

pandas中的merge和concat类似,但主要是用于两组有key column的数据,统一索引的数据. 通常也被用在Database的处理当中.

2017-12-15 11:33:18 3169

原创 pandas学习之concat合并及读写CSV文件

读取CSV文件读取中文的CSV文件中有中文，用“UTF-8”会出现乱码问题，解决：

2017-12-15 11:03:39 11707

原创 json学习以及csv和json转化

资料：https://docs.python.org/2/library/json.html JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，易于人阅读和编写读取CSV这里写代码片1**. 将 Python 对象编码成 JSON 字符串**Encode过程，是把python对象转换成json对象的一个过程，常用的两个函

2017-12-12 11:51:00 923

原创 CSV模块学习

**csv模块**

2017-12-12 10:16:00 622

changzoe的博客