- 博客(19)
- 资源 (1)
- 收藏
- 关注
原创 集成学习Adaboost算法及python实现及sklearn包的调用
集成方法(ensemble method)集成方法主要包括Bagging和Boosting两种方法。bagging 基于数据重抽样的分类器构建方法在Bagging方法中,主要通过对训练数据集进行随机采样,以重新组合成不同的数据集,新数据集和旧数据集大小相等,利用弱学习算法对不同的新数据集进行学习,得到一系列的预测结果,对这些预测结果做平均或者投票做出最终的预测。注:随机森林算法是基于Baggin
2017-12-28 14:20:25 20479
原创 机器学习之奇异值分解SVD及应用于协同过滤推荐和LSA潜在语义分析
隐形语义分析LSA隐形语义分析(LSA)是一种自然语言处理中用到的方法,又称为隐形语义索引 LSI,其通过“矢量语义空间”来提取文档与词中的“概念”,进而分析文档与词之间的关系。LSA的基本假设是,如果两个词多次出现在同一文档中,则这两个词在语义上具有相似性。LSA使用大量的文本上构建一个矩阵,这个矩阵的一行代表一个词,一列代表一个文档,矩阵元素代表该词在该文档中出现的次数,然后再此矩阵上使用奇异值
2017-12-22 12:07:12 1395
原创 逻辑回归及其python实现
逻辑回归原理sigmod函数下图给出了sigmod 函数在不同坐标尺度下的两条曲线图。当 x 为 0 日牝 Sigmoid 函数值为 0.5 。 随着 1 的增大,对应的sigmod值将逼近于 1; 而随着 x 的减小, Sigmoid 值将逼近于 0 。如果横坐标 刻度足够大(下图 ),sigmod 函数看起来很像一个阶跃函数。原理 上图,将y作为正例的可能性,则1-y是反例的可能性•
2017-12-29 16:12:50 923
原创 评估方法与CrossValidation交叉验证
评估方法关键:怎么获得“测试集”(test set) ?测试集应该与训练集“互斥”常见方法:留出法 (hold-out)交叉验证法 (cross validation)自助法 (bootstrap)留出法注意: 保持数据分布一致性 (例如: 分层采样) 多次重复划分 (例如: 100次随机划分) 测试集不能太大、不能太小 (例如:1/5~1/3)k-折交叉验证法自助法 sklearn
2017-12-29 14:29:01 4270
原创 python返回连续递增子序列的长度
针对全是数字的序列如电话号码 在反欺诈的运用里,很重要的一部分是电话号码欺诈 我们认为电话号码中出现“12345”就是欺诈号码 那么如何找出这种欺诈号码?'''函数找出电话号码中诸如’123456‘的连续递增子序列的长度'''def LIS(l): n=len(l) F=[1]*n for i in range(1,n): if int(l[i]
2017-12-27 14:07:27 2615
原创 python之subplot,subplot2grid,gridspec,subpplots分图、分格展示
subplot分图展示均匀分图matplotlib 是可以组合许多的小图, 放在一张大图里面显示的. 使用到的方法叫作 subplot. 使用import导入matplotlib.pyplot模块, 并简写成plt. 使用plt.figure创建一个图像窗口.import matplotlib.pyplot as pltplt.figure()使用plt.subplot来创建小图. plt.s
2017-12-19 18:23:12 17906 2
原创 python 3d图
首先在进行 3D Plot 时除了导入 matplotlib ,还要额外添加一个模块,即 Axes 3D 3D 坐标轴显示:
2017-12-19 17:37:02 6033
转载 pandas学习之合并merge
pandas中的merge和concat类似,但主要是用于两组有key column的数据,统一索引的数据. 通常也被用在Database的处理当中.
2017-12-15 11:33:18 3169
原创 json学习以及csv和json转化
资料:https://docs.python.org/2/library/json.html JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于人阅读和编写读取CSV这里写代码片1**. 将 Python 对象编码成 JSON 字符串**Encode过程,是把python对象转换成json对象的一个过程,常用的两个函
2017-12-12 11:51:00 923
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人