机器学习
文章平均质量分 94
Leo蓝色
奋斗目标:财务自由
展开
-
机器学习-*-特征工程简述
简要说明一些特征工程方面用到的知识,关于一些原理没有深入讲解和研究,主要是对知识有一个系统性理解,当实际工作中遇到相应问题时可快速解决和分析特征归一化为什么需要特征归一化为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同的指标之间有可比性我们一般会对数值类的特征进行归一化在训练中使用归一化,可以更快的找到最优解归一化常用的方法线性归一化Xnorm=X−XminXmax−XminX_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}Xnor原创 2020-06-12 17:45:35 · 175 阅读 · 0 评论 -
深度学习-*-TextCNN对头条文章进行分类
数据集–头条文章根据晚上搜集的数据资源-github地址:头条数据集处理该数据集的策略是 分词,抽词等,主要是通过原爬取者抽取的关键字和我从标题中抽取的关键字结合作为分类的特征词。模型参考的是网上的教程:import tensorflow as tfclass TextCNN(object): """ TextCNN model """ def __...原创 2019-03-28 14:21:16 · 574 阅读 · 1 评论 -
机器学习-*-聚类评价指标
直接上代码,参考论文《文本聚类分析效果评价及文本表示研究》#!/usr/bin/python# -*- coding:utf-8 -*-"""@Name cluster_metrics@Description 聚类评估方法@Date 2019/4/4"""import sysimport mathdef _find_dict_and_dataset(p_class =...原创 2019-04-04 15:23:40 · 664 阅读 · 0 评论 -
机器学习-*-决策树
决策树决策树的学习一般需要3个步骤来实现:特征选择决策树的生成决策树剪枝在每一点所用的方法不同,得到的决策树算法就会不同。比如:特征选择方面:ID3选择信息增益作为准则(criterion) , C4.5用信息增益率作为准则,CART用基尼系数或者MSE(最小均方损失)作为准则。决策树生成方面:ID3 C4.5 是多叉树,每个节点是一种特征属性判断,各个节点特征属性不重复。而CA...原创 2018-12-19 15:32:36 · 196 阅读 · 0 评论 -
机器学习-*-DBSCAN聚类及代码实现
DBSCANDBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)原理首先描述以下几个概念,假设我们有数据集D={x1,x2,x3,...,xn}D=\{x_1,x_2,x_3,...,x_n\}D={x1,x2,x3,...,xn},则1.ϵ\epsilonϵ邻域:对于∀...原创 2018-11-28 16:46:38 · 3563 阅读 · 0 评论 -
机器学习-*-MeanShift聚类算法及代码实现
MeanShift该算法也叫做均值漂移,在目标追踪中应用广泛。本身其实是一种基于密度的聚类算法。主要思路是:基于某一点的周围半径R内的点向量,计算出该点下一步移动的路线。当该点不再移动时,计算其与历史类簇的距离,满足阈值要求的即合并,不满足则自身形成一个类簇。本身有改进的核方法,这里不阐述了。后续会加上有时间补充概念,先上代码及实验结果:Python代码#!/usr/bin/pytho...原创 2018-11-26 17:58:17 · 2872 阅读 · 3 评论 -
机器学习-*-K均值聚类及代码实现
KMeans聚类在聚类算法中,最出名的应该就是k均值聚类(KMeans)了,几乎所有的数据挖掘/机器学习书籍都会介绍它,有些初学者还会将其与KNN等混淆。k均值是一种聚类算法,属于无监督学习的一种,而KNN是有监督学习/分类学习的一种。聚类:顾名思义,就是讲某些相似的事物聚在一起,形成一个类。这里就涉及到几个概念1.如何表示一个事物?通常我们会准备好一个数据集,里面是我们的数据,每一行代表的...原创 2018-11-26 14:29:35 · 3673 阅读 · 10 评论 -
深度学习-*-RNN正向及反向传播
RNN简介RNN(循环神经网络)是深度神经网络中,应用最广泛的两种神经网络架构之一。并且,作为一种时序结构的神经网络,RNN经常用于时序相关的问题中,且在NLP中应用广泛。还有一种RNN称为递归神经网络,虽然名字类似,但是却是不一样的架构。RNN图示xtx_txt是输入层数据,sts_tst是隐含层数据,oto_tot是输出层数据,我们令:每一个yty_tyt是t时刻对应的真实输出...原创 2018-11-25 21:47:16 · 2300 阅读 · 1 评论 -
机器学习-*-朴素贝叶斯
原理(先简单写一下,后续补公式,主要是贴上去代码)朴素贝叶斯有一个较强的前提条件:各个特征之间是独立的他的思想是利用贝叶斯定理来学习到数据的分布,属于生成模型的一种。他根据期望风险最小化推导出后验概率最大化,故可以用极大似然估计和贝叶斯估计来找到模型的参数。代码(numpy 矩阵输入)#!/usr/bin/python# -*- coding:utf-8 -*-"""Author ...原创 2018-11-02 22:29:59 · 346 阅读 · 0 评论 -
深度学习-*-正向及反向传播推导
正向传播如上图所示,这是一个全连接的三层神经网络,之所以说这个是3层,是因为包含了2个隐藏层、1个输出层。输入层在这里我们不把他当做神经网络中的一层看待。这里,我们假设输入数据为XXX,输出为YYY。我们先看hidden layer 1,记权重参数为W[1]W^[1]W[1]...原创 2018-10-31 17:21:20 · 1498 阅读 · 1 评论 -
机器学习-*-KNN最近邻分类
算法思想通俗易懂:需要预测的数据X与历史数据做距离计算,找到距离最小的排名前K的距离点,看一下这里面哪种类型最多,就判别为X属于哪一类。直接上代码:这里利用了TensorFlow中的MNIST手写数字数据集#!/usr/bin/python# -*- coding:utf-8 -*-"""Author LiHaoTime 2018/10/31 10:46"&a原创 2018-10-31 15:31:11 · 295 阅读 · 0 评论 -
数据归一化的方法
数据特征之间往往有着不同的分布区间,差异较大的情况下会很大程度的影响数据分析的结果。为了消除这种现象的影响需要对原始数据进行归一化处理,使得各个指标处于同一数量级。 (1)max-min归一化 也叫离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。公式为: X=(X-min)/(max-min) max:最大值,min:最小值。 (2)Z-score标准化 这种方法给原创 2016-12-19 13:38:07 · 1672 阅读 · 0 评论 -
用户贷款风险预测-datacastle竞赛题目
自己是大菜鸟一枚,datacastle比赛题目,根据别人的代码做的。用的是Logistic,做出的结果不好,目前只排在200多名。先放在博客上面,后续如果排名提上来了,再修改!加油!# -*- coding: utf-8 -*-"""Created on Tue Jan 10 09:54:12 2017###Datacastle的‘用户贷款风险预测’竞赛题目####初步想法是利用逻辑斯蒂回归原创 2017-01-10 15:27:10 · 7455 阅读 · 6 评论 -
深度学习-*-梯度优化算法及代码实例
1 梯度下降算法想必大家对梯度下降或多或少有所了解,这里对他的原理就不再多说(其他教程说的比我好多了),只给出下列公式(按照吴恩达的深度学习课程中的公式):W:=W−α∗dWW:=W-\alpha*dWW:=W−α∗dW b:=b−α∗dbb:=b-\alpha*dbb:=b−α∗db上述公式中dW与db为参数W与偏置b的梯度方向,α\alphaα为步长/学习速率,即一个超参。我们的任务就是通...原创 2018-10-19 14:58:01 · 1246 阅读 · 0 评论