tflearn学习笔记01 tflearn学习笔记常见函数解释tflearn.fully_connected全连接层flatten使传入的张量变平 池化层/降采样层:Pooling Layer 标准化层(Normalization Layer): Batch Normalization解决了反向传播过程中的梯度问题(梯度消失和爆炸) LRN(Local Response Normali...
mac os环境下安装lightgbm失败 解决方法 问题使用官方github的安装方法,在cmake地方编译不通过解决已安装过Cmake,保证cmake版本要3.8以上,通用–更新cmake版本 gcc版本有问题,原mac os 因为其他项目下载过gcc-6 使用gcc-6 编译lighgbm时cmake ..替换为如下命令cmake -DCMAKE_CXX_COMPILER=g++-6 -DCMAKE_C_COMPILER...
sklearn数据切分及交叉验证笔记 数据切分方法1 随机切分from sklearn.model_selection import train_test_splitiris = datasets.load_iris()X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.4, random_sta
自然语言处理学习笔记之中文文本分类 1. 中文处理的编码问题中文的编码不是utf8,而是unicode Python 会自动的先将解码,然后再编码 Python2.7默认编码是 ANSCII Python3 默认编码是 Unicode Python2.7解决中文乱码: 1). 文件开头#encoding:utf-82). python2.7使用sys.defaultencoding参考 默认sys.de...
深度学习之LSTM实现 LSTM之keras实现TensorFlow之LSTMLSTM之keras实现import numpy as npnp.random.seed(2017) #为了复现from __future__ import print_functionfrom keras.datasets import mnistfrom keras.utils import np_ut
深度学习之CNN实现 CNN 实现CNN相比与传统神经网络,主要区别是引入了卷积层和池化层 卷积是使用tf.nn.conv2d, 池化使用tf.nn.max_poolCNN之keras实现import numpy as npnp.random.seed(2017) #为了复现from __future__ import print_functionfrom keras.datasets i
神经网络之keras/tf框架实现 Keras实现神经网络import numpy as npnp.random.seed(2017) #为了复现from keras.datasets import mnistfrom keras.utils import np_utilsfrom keras.models import Sequentialfrom keras.layers import Dense, Acti...
Tensorflow学习笔记 Tensorflow学习笔记参考知乎 莫烦 Tensorflow安装# python 2+ 的用户:$ pip install tensorflow# python 3+ 的用户:$ pip3 install tensorflow更新# 如果你是 Python 2, 请复制下面pip uninstall tensorflow# 如果你是 Pyth...
深度学习之keras使用 深度学习之keras使用keras安装安装Numpy、Scipy等科学计算库安装theano、tensorflow eg:CPU版tensorflow pip install tensorflowpip install keras修改Backend底层框架Theano或者Tensorflow使用import keras屏幕会显示当前使用的Backend~/.keras/keras.json{
神经网络之python实现 神经网络之python实现#初始化w b 输入为 [每层的size] eg: [4,5,2] 输入层为4 隐藏层为 5 输出层为 2def initwb(sizes): num_layers_ = len(sizes) #层数 w_ = [np.random.randn(y, x) for x, y in zip(sizes[:-1], sizes[1:])] #1-最后二层 与 2-最后一层
相似URL判定及字符串相似度距离 相似URL判定edit distance缺点 基于结构来判断URL相似度,去掉数字。字符串是否也需要去掉自身只保留结构,或者保留存在长度的结构,可以根据情况来灵活取舍。抽象一下特征 1、站点特征:如果两个url站点一样,则特征取值1,否则取值0; 2、目录深度特征:特征取值分别是两个url的目录深度是否一致; 3、一级目录特征:在这维特征的取值上,可以采用多种方法,比如如果一级目录名字相同则特
spark线上环境问题总结 编译xgboost4j-on-spark的坑下载源码 git clone –recursive https://github.com/dmlc/xgboost 必须下载依赖 gcc –version 版本必须4.6以上cd jvm-packagesmvn -Dspark.version=2.1.1 package //mvn package上传到集群主要要把xgboost4j的j
Word2vec原理与应用 用一个普通的向量表示一个词,将所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上的词向量之间的距离度量也可以表示对应的两个词之间的“距离”。所谓两个词之间的“距离”,就是这两个词之间的语法,语义之间的相似性。 只介绍基于Hierarchical Softmax的CBOW模型,其他模型参考文章的参考链接。原理语言模型的目标函数一般为对数似然函数 C为所有语料 针对
R语言实用函数整理 初始化options(stringsAsFactors=F,scipen=99)rm(list=ls());gc()getwd() 获得工作路径信息setwd() 设置工作路径清空控制台快捷键control+L获取目录下所有文件名filenames=dir("/Users/yuyin/Downloads/数据/Excel数据")##or推荐第二种s...
gcForest算法理解 介绍gcForest(multi-Grained Cascade forest 多粒度级联森林)是周志华最新提出的新的决策树集成方法。这种方法生成一个深度树集成方法(deep forest ensemble method),使用级联结构让gcForest学习。 gcForest模型把训练分成两个阶段:Multi-Grained Scanning和Cascade Forest。Multi-Grain
XGBoost原理与应用 基本构成boosted tree作为有监督学习算法有几个重要部分:模型、参数、目标函数、优化算法 模型 模型指给定输入x如何去预测输出y 参数 参数指我们需要学习的东西,在线性模型中,参数指我们的线性系数w 目标函数 目标函数:损失 + 正则,教我们如何去寻找一个比较好的参数 一般的目标函数包含下面两项: Bias-variance tradeoff,Bias可以理解为假设我们有
机器学习面试编程题汇总 阿里2017年3月在线编程题 package yuyin.chuli;import java.math.BigDecimal;import java.util.Scanner;public class Main { /** 请完成下面这个函数,实现题目要求的功能 **/ /** 当然,你也可以不按照这个模板来作答,完全按照自己的想法来 ^-^ **/ static doub
机器学习面试问题汇总 伪代码实现:LR、梯度下降、最小二乘、KNN、Kmeans; LR,SVM,XGBOOST推公式(手推) LR,SVM,RF,KNN,EM,Adaboost,PageRank,GBDT,Xgboost,HMM,DNN,推荐算法,聚类算法,等等机器学习领域的算法基本知识:1)监督与非监督区别;是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,
去掉CSDN-markdown编辑器的上传图片里面的水印 去掉
机器学习面试准备(持续更新) 机器学习问题汇总http://blog.csdn.net/q383700092/article/details/58605715线性与非线性机器学习里面模型的线性与非线性说的是模型结果与参数之间的关系,模型结果与参数是非线性关系即为非线性模型。非线性模型又存在变量变换成线性问题和变换不成线性问题(本质非线性)两种。 参考《概率论与数理统计》浙大第四版p257LR(Logistic Regres