机器学习
文章平均质量分 53
power0405hf
这个作者很懒,什么都没留下…
展开
-
Adaboost
原文 上述文章讲了AdaBoost(adaptive boosting自适应提升算法)的理论基础和一个小例子。 bagging(bootstrap aggregating,自举汇聚法)是从原始数据集选择S次后得到S个新数据集的一种技术。 boosting是一种与bagging很类似的技术。boosting和bagging所使用的分类器的类型都是一致的。但是boosting的分类器是通过串行训转载 2015-05-16 21:55:59 · 681 阅读 · 0 评论 -
交叉熵与相对熵
如何通俗的解释交叉熵与相对熵?原创 2017-06-11 22:53:56 · 446 阅读 · 0 评论 -
标准化,归一化和正则化
0.参考文献关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化 2017.6.3更新: 数据标准化/归一化normalization 归一化与标准化1.标准化用的最多的是 z-score标准化公式为 (X - mean)/ std计算时对每个属性(每列)分别进行。 将数据按其属性(一般是按列)减去其均值,并除以其标准差,得到的结果是,对每个属性来说,所有数据都聚集在0附近,方原创 2016-12-04 20:24:22 · 12121 阅读 · 0 评论 -
GBDT写的好的资料
首先是论文:Greedy Function Approximation: A Gradient Boosting Machine GBDT理解二三事 机器学习中的算法(1)-决策树模型组合之随机森林与GBDT GBDT的wiki百科原创 2017-05-21 15:01:05 · 1850 阅读 · 0 评论 -
Python pandas 初步
pandas 一般用来进行数据分析。0. 引入pandasfrom pandas import Series, DataFrameimport pandas as pd1. Series1. 创建Seriesobj = Series([4,7,-5,3])> output:> 0 4> 1 7> 2 -5> 3 3# 索引在左边,值在右边print obj.values #ar原创 2015-10-25 22:41:03 · 582 阅读 · 0 评论 -
数据清洗
1.概念数据清洗:把脏数据清洗掉,提高数据质量。 Data cleansing, Data cleaning, Data scrubbing三种表达方式都可以,意思都是检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声。 数据清洗分为有监督清洗和无监督清洗两类。有监督清洗:在领域专家的指导下,收集分析数据,手工去除明显的噪声数据和重复记录,填补缺值数据等清原创 2015-11-04 21:45:02 · 16296 阅读 · 0 评论 -
CRF++的初步使用(1)
1.前言条件随机场(Conditional Random Field,CRF)在自然语言处理中有着十分广泛的应用, CRF条件随机场简介 而开源的CRF++避免了我们一个一个的去造轮子。我们来看一下CRF++是如何使用的。2.CRF++的下载原始网址: CRF++: Yet Another CRF toolkit 我下的win版: CRF++0.58 windows3.CRF++初步运行w转载 2015-07-10 22:10:04 · 2279 阅读 · 0 评论 -
归一化
一般的三种归一化方法: 1、线性函数转换,表达式如下: y=(x-MinValue)/(MaxValue-MinValue) 归一化至[0 1] y=2*(x-MinValue)/(MaxValue-MinValue)-1 归一化至[-1 1] 2、对数函数转换,表达式如下: y=log10 (x) 3、反余切函数转换 ,表达式如下: y=arctan(x)*原创 2015-06-05 21:42:31 · 1111 阅读 · 0 评论 -
微博背后的那些算法
原文 微博背后的那些算法引言 微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作:原创、转发、回复、阅读、关注、@等。其中,前四个是针对短博文,最后的关注和@则针对的是用户之间的关系,关注某个人就意味着你成为他的粉丝,而他成为你的好友;@某个人意味着你想要他看到你的微博信息。微博被人们认为是“自媒体”,即普通大众分享与本身相关的“新闻”的途径。最近,有些人使用自己在自媒体转载 2015-06-24 22:16:48 · 425 阅读 · 0 评论 -
python adaboost 自适应数据加载函数
def loadDataSet(filename): numFeat=len(open(filename).readline().split('\t')) dataMat=[];labelMat=[] fr=open(fileName) for line in fr.readlines(): lineArr=[] curLine=lin转载 2015-05-17 15:47:42 · 832 阅读 · 0 评论 -
机器学习 非均衡分类问题
相关文章1.其他分类性能度量指标:正确率,召回率及ROC曲线混淆矩阵(confusion matrix):可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。 混淆矩阵 预测结果 +1 预测结果 -1 真实结果+1 真正例(True Positive,TP) 伪反例(False Negative,FN) 真实结果-1 伪正例(False Positive,FP转载 2015-05-17 22:03:23 · 1617 阅读 · 0 评论 -
MNIST tensorflow
原始地址import tensorflow as tfimport tensorflow.examples.tutorials.mnist.input_data as input_datamnist=input_data.read_data_sets("MNIST_data/",one_hot=True)print (mnist.train.images.shape)print (mnist原创 2017-07-16 14:08:39 · 511 阅读 · 0 评论