机器学习
文章平均质量分 67
小豪学长啊
这个作者很懒,什么都没留下…
展开
-
统计学习方法--朴素贝叶斯
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。简单来说,朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。举个例子,如果一种水果具有红,圆,直径大概4英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实转载 2016-11-07 20:33:52 · 456 阅读 · 0 评论 -
机器学习之评估指标
分类混淆矩阵1True Positive(真正, TP):将正类预测为正类数.True Negative(真负 , TN):将负类预测为负类数.False Positive(假正, FP):将负类预测为正类数 →误报 (Type I error). False Negative(假负 , FN):将正类预测为负类数 →漏报 (Type II error).精确率原创 2017-04-26 11:13:20 · 539 阅读 · 0 评论 -
中文分词算法总结
什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来 才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学原创 2017-04-18 20:00:08 · 549 阅读 · 0 评论 -
机器学习之验证码识别
项目背景:之所以做这个其实很久就有这个想法了,因为搞爬虫有大半年了,怕热很多网站,也模拟登陆了许多网站,包括知乎微博等,但是有个问题是,当我们遇到验证码的时候,就需要人工打验证码了,特别是用selenium登录新浪手机端的时候,每次都需要人为打验证码,感觉还不够全自动。所以就有了这个摸索。---------------------------------------------------原创 2017-03-24 10:50:32 · 17745 阅读 · 13 评论 -
机器学习--sklearn的常见使用
from sklearn.naive_bayes import GaussianNBclf = GaussianNB() #训练模型clf.fit(features_train,labels_train) pred = clf.predit(features_test) #给出测试变量,预测结果from sklearn.metrics imp原创 2017-03-11 15:54:26 · 1138 阅读 · 0 评论 -
浅谈机器学习中的特征缩放
引言在运用一些机器学习算法的时候不可避免地要对数据进行特征缩放(feature scaling),比如:在随机梯度下降(stochastic gradient descent)算法中,特征缩放有时能提高算法的收敛速度。下面我会主要介绍一些特征缩放的方法。什么是特征缩放特征缩放是用来标准化数据特征的范围。机器算法为什么要特征缩放特征缩放还可以使机器学习算法工作的更好。比如在K近邻原创 2017-03-28 16:24:49 · 1388 阅读 · 0 评论 -
sklearn常用模块及类及方法----机器学习Python
常见机器学习模型 所在的位置补充StandardScalersklearn.preprocessingLabelEncodersklearn.preprocessingtrain_test_splitsklearn.cross_validation方法(小写)PCAsklearn转载 2017-03-06 17:58:38 · 1410 阅读 · 0 评论 -
从头开始实现神经网络:入门
本文中我们会从头实现一个简单的3层神经网络。我们不会推导所有的数学公式,但会给我们正在做的事情一个相对直观的解释。我也会给出你研读所需的资源链接。这里假设你已经比较熟悉微积分和机器学习的概念了。比如,你知道什么是分类和正则化。当然你也应该了解一点优化技巧,如梯度下降是如何工作的。但是即使你对上面提到的任何一个概念都不熟悉,你仍然会发现本文的有趣所在。但是为什么要从头实现一个神经网络呢?即使转载 2017-03-04 16:41:04 · 697 阅读 · 0 评论 -
神经网络激活函数--tanh双曲正切函数
Tanh 是双曲正切函数,是三角学中普遍使用的Tan 圆函数的双曲类比.Tanh[α] 定义为对应的双曲正弦和双曲余弦函数的比值,即 via .Tanh 也可以定义为,其中 是自然对数Log 的底数.当变量是有理数的(自然)对数时,Tanh 会自动计算出精确值. 当给出精确数值表达式作为变量时,Tanh 可以算出任意精度的数值结果. TrigFactorList原创 2017-03-04 16:11:04 · 9850 阅读 · 0 评论 -
Linux下安装python-opencv
系统:Ubuntu 14.04 Python : 2.7.10opencv : 2.4.9OpenCv1、下载 opencv 源码 下载2、解压到任意目录unzip opencv-2.4.9.zip3、进入源码目录,创建release目录(或者 build 目录都行)cd opencv-2.4.9 mkdir release 4、转载 2016-10-27 10:03:00 · 3273 阅读 · 0 评论 -
统计学习方法3,kd树
在使用k近邻法进行分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决的方式进行预测。由于k近邻模型的特征空间一般是n维实数向量,所以距离的计算通常采用的是欧式距离。关键的是k值的选取,如果k值太小就意味着整体模型变得复杂,容易发生过拟合,即如果邻近的实例点恰巧是噪声,预测就会出错,极端的情况是k=1,称为最近邻算法,对于待预测点x,与x最近的点决定了x的类别。k值得增大意味着整体的原创 2016-11-02 17:20:55 · 734 阅读 · 0 评论 -
《统计学习方法》2.感知机
感知机(perceptron)是二分类的线性分类模型,输入为实例的特征向量,输出为实例的类别(取+1和-1)。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面,为求得超平面导入了基于误分类的损失函数,利用梯度下降法 对损失函数进行最优化(最优化)。感知机的学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型对新的实例进行预测的,因此转载 2016-10-27 19:31:29 · 1320 阅读 · 0 评论 -
统计学习方法概论
1.统计学习是关于计算机基于数据构建概论统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、非监督学习、半监督学习和强化学习。2.统计学习方法三要素:模型、策略、算法,对理解统计学习方法起到提纲挈领的作用。3.本书主要讨论监督学习,监督学习可以概况如下:从给定有限的训练数据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个原创 2016-10-27 18:24:34 · 439 阅读 · 0 评论