自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

公众号:瑞行AI

欢迎关注公众号瑞行AI,算法交流学习、算法咨询服务

  • 博客(219)
  • 资源 (9)
  • 收藏
  • 关注

原创 C++模板函数、模板类小笔记

C++除了类里的内存模型比较有意思之外,泛型编程也是很有思想的抽象。当然最有用的还是标准模板库,带上标准的~里面包含了各种现成的容器,好用并且格式比较统一 美观~模板函数#include <iostream>#include <string>using namespace std;template <typename Type>const Type& GetMax(const Type& value1, const Type&

2018-02-25 08:57:13 363

原创 模型评估与选择

本文是周志华《机器学习》第二章的学习笔记。衡量指标错误率error_rate=分类错误的样本数/样本总数;精度accuracy=1-错误率。训练误差:学习器在训练集上的误差;泛化误差:学习器在新样本上的误差。过拟合:把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,模型的泛化性能下降;欠拟合:对训练样本的一般性质尚未学好。模型训练(train/validat...

2018-02-25 08:56:29 951

原创 MySQL对数据库服务器及数据库整体的操作

本文是个人学习笔记,内容主要包含数据库的创建、数据库的删除,学习文档来自易百教程:http://www.yiibai.com/mysql/启动关闭数据库服务器 数据库整体操作MySQL的数据库是用于存储和操作诸如表,数据库视图,触发器,存储过程等数据的对象的集合。查看数据库show databases;创建数据库create database ...

2018-02-08 14:00:56 348

原创 MySQL对数据表整体的操作***

本文是个人学习笔记,内容主要包含数据表的存储方式简介,数据的导入与导出,数据表的创建、重命名与删除,数据表的结构更改,数据表的关联。学习文档来自易百教程:http://www.yiibai.com/mysql/表的存储方式简介表与存储引擎MySQL为其表提供了各种存储引擎,每个存储引擎都有自己的优点和缺点,为表选择最合适的功能可以最大限度地提高数据库的性能。它们分别如下所示: ...

2018-02-07 19:19:54 367

原创 MySQL数据表对数据列排序(技巧)

本文是个人学习笔记,内容主要包含数据表里的数据排序,学习文档来自易百教程:http://www.yiibai.com/mysql/ORDER结合FIELD()对列取值映射后排序select orderNumber,status from orders order by field(status,'In Process','On Hold','Cancelled','Resolve

2018-02-07 14:54:35 4709

原创 特征工程:特征生成,特征选择(三)

特征生成特征工程中引入的新特征,需要验证它确实能提高预测得准确度,而不是加入一个无用的特征增加算法运算的复杂度。1. 时间戳处理时间戳属性通常需要分离成多个维度比如年、月、日、小时、分钟、秒钟。但是在很多的应用中,大量的信息是不需要的。比如在一个监督系统中,尝试利用一个’位置+时间‘的函数预测一个城市的交通故障程度,这个实例中,大部分会受到误导只通过不同的秒数去学习趋势,其实是不合理的

2018-01-26 10:54:41 19673

原创 特征工程:连续数值v.s.离散类别的处理方法(二)

本文是学习数据科学家 Dipanjan Sarkar介绍特征工程的博客翻译文。 数值型数据是指连续型数据,离散型数据表示不同类目。整数和浮点数是连续型数值数据中最常见也是最常使用的数值型数据类型。即使数值型数据可以直接输入到机器学习模型中,仍需要在建模前设计与场景、问题和领域相关的特征。(一)连续型数值数据的特征工程处理方法原始特征是直接从数据集中得到,没有额外的操作或处理。导出特征

2018-01-24 18:26:57 21839

原创 模型调优:交叉验证,超参数搜索(复习17)

用模型在测试集上进行性能评估前,通常是希望尽可能利用手头现有的数据对模型进行调优,甚至可以粗略地估计测试结果。通常,对现有数据进行采样分割:一部分数据用于模型参数训练,即训练集;一部分数据用于调优模型配置和特征选择,且对未知的测试性能做出估计,即验证集。交叉验证可以保证所有数据都有被训练和验证的机会,也尽最大可能让优化的模型性能表现的更加可信。下图给出了十折交叉验证的示意图。 模型的超参数是指实验

2018-01-21 14:54:51 7374

原创 模型泛化能力——过拟合与欠拟合,L1/L2正则化(复习16)

本文是个人学习笔记,内容主要是观察多项式曲线对数据的拟合/过拟合/欠拟合,及加正则化项对模型的不同修正作用。 拟合:机器学习模型在训练的过程中,通过更新参数,使模型不断契合可观测数据(训练集)的过程。利用一次曲线回归拟合X_train=[[6],[8],[10],[14],[18]]y_train=[[7],[9],[13],[17.5],[18]]from sklearn.l

2018-01-21 11:13:28 4676 2

原创 特征筛选(复习15)

本文是个人学习笔记,内容主要基于sklearn库的特征筛选器对Titanic数据集进行特征预处理后,再进行分类。特征筛选与PCA这类通过选择主成分对特征进行重建的方法略有区别:对于PCA而言,经常无法解释重建之后的特征;但是特征筛选不存在对特征值的修改,其更侧重于寻找那些对模型的性能提升较大的少量特征。import pandas as pdtitanic=pd.read_csv('http://b

2018-01-21 00:03:36 695

原创 特征抽取(复习14)

本文是个人学习笔记,内容主要基于DictVectorizer对字典存储的数据进行特征抽取和向量化,对sklearn内置的fetch_20newsgroups——新闻数据抓取器从互联网上即时下载的新闻文本数据进行去停用词、构建词表、CountVectorizer和TfidfVectorizer词向量化等处理后,再利用MultinomialNB分类器进行多类分类。前面的实验都是从标准的训练数据中,

2018-01-20 17:51:36 467

原创 基于PCA模型的数据降维(复习13)

本文是个人学习笔记,内容主要基于PCA降维模型对手写体数据图像集进行降维,把原始64维度的数字图像压缩映射到二维空间,实验结果表明绝大多数数字之间仍然具有区分性。在数据表现方面,无法用肉眼观测超过三个维度的特征。对于数据维度非常高的数据样本,通过无监督学习可以对数据进行降维,保留最具有区分性的低维度特征。在特征降维的方法中,主成分分析(Principal Component Analysis)是最为

2018-01-20 16:39:57 3974 1

原创 基于K-Means模型的数据聚类(复习12)

本文是个人学习笔记,内容主要基于K-means聚类模型KMeans对手写体数据集进行聚类分组。无监督学习(Unsupervised Learning)着重于发现数据本身的分布特点,发现数据的“群落”,寻找“离群”的样本。K-means算法:预先设定聚类的个数,然后不断更新聚类中心,目标是让所有数据点到其所属聚类中心距离的平方和趋于稳定。 K-means算法执行的4个阶段:(1)随机布设K个特征空间

2018-01-20 15:10:59 4923

原创 利用树的集成回归模型RandomForestRegressor/ExtraTreesRegressor/GradientBoostingRegressor进行回归预测(复习11)

本文是个人学习笔记,内容主要基于树的三种集成回归模型RandomForestRegressor,ExtraTreesRegressor以及GradientBoostingRegressor对boston数据集学习回归模型和利用模型预测。普通的随机森林模型构建的分裂节点时是随机选取特征的,极端随机森林在构建每一棵树的分裂节点时,不会任意的选取特征,而是先随机收集一部分特征,然后利用信息熵/基尼指

2018-01-20 13:31:40 7399

原创 利用回归树DecisionTreeRegressor进行回归预测(复习10)

本文是个人学习笔记,内容主要基于回归树DecisionTreeRegressor对boston数据集学习回归模型和利用模型预测。 树模型可以解决非线性特征的问题,树模型不要求对特征标准化和统一量化(即数值型和类目型特征都可以直接被用到树模型的构建和预测过程),树模型可以直观地输出决策过程,使得预测结果具有可解释性。 使用树模型时要防止过拟合,对数据噪声的敏感度较高(预测稳定性较差),有训练数据构建

2018-01-20 11:37:45 13095

原创 利用K近邻(回归)KNeighborsRegressor进行回归预测(复习9)

本文是个人学习笔记,内容主要基于K近邻(回归)KNeighborsRegressor对boston数据集学习回归模型和利用模型预测。 K近邻(回归)模型同样是无参数模型,只是借助K个最近训练样本的目标数值,对待测样本的回归值进行决策。即根据样本的相似度预测回归值。 衡量样本待测样本回归值的不同方式:(1)对K个近邻目标数值使用普通的算术平均算法(2)对K个近邻目标数值考虑距离的差异进行加权平均。

2018-01-20 11:03:42 20015 1

原创 利用支持向量机(回归)SVR进行回归预测(复习8)

本文是个人学习笔记,内容主要基于支持向量机(回归)SVR对boston数据集学习回归模型和利用模型预测。 SVR同SVC一样,是从训练数据中选取一部分更加有效地支持向量,根据这些训练样本的值通过回归分析预测目标。 在SVM里,核函数是一种非常有用的特征映射技巧,径向基核函数对特征可以进行非线性映射。from sklearn.datasets import load_bostonbosto

2018-01-20 10:31:25 58933 3

原创 利用线性回归器LinearRegression/SGDRegressor进行回归预测(复习7)

本文是个人学习笔记,内容主要涉及“基于解析方法估计参数的LinearRegression”和“基于随机梯度下降法估计参数的SGDRegressor”对boston数据集进行线性回归拟合和预测。当根据数据建模和预测时,如果待预测的目标是连续变量,即为回归问题。回归问题学习时,优化的目标是最小化预测结果与真实值之间的差异,通过优化算法学习到模型参数。预测时,不能苛求回归预测的数值结果要严格地与真实

2018-01-18 22:12:09 10178 1

原创 MySQL数据表约束筛选v.s.行列运算

本文是个人学习笔记,内容主要包含对数据表加约束筛选行列、对数据表里的行列进行运算,学习文档来自易百教程:http://www.yiibai.com/mysql/GROUP BY//DISTINCT+ORDER BY//ORDER BYselect state from customers group by state; #有顺序select distinct state fro...

2018-01-18 17:46:27 302

原创 SVN的配置和基本使用方法

SVN(Subversion)是用于程序开发过程的版本控制工具。 SVN的搭建分为两部分:客户端和服务器端,二者的关系参考 http://blog.csdn.net/cymy001/article/details/78210183 客户端主要是进行代码的提交、删除等;服务器端主要是进行代码的保存、更新等,用于记录代码的变更过程。独立服务器方式:svnserve ;借助Apache方式:m

2018-01-17 19:53:15 448

原创 Python机器学习库sklearn.model_selection模块的几个方法参数

强大的sklearn库可以解决的问题: train_test_split返回切分的数据集train/testtrain_test_split(*array,test_size=0.25,train_size=None,random_state=None,shuffle=True,stratify=None)*array:切分数据源(list/np.array/pd.DataFra...

2018-01-16 19:52:28 43905 1

原创 利用树的集成模型分类器RandomForestClassifier/GradientBoostingClassifier进行二类分类(复习6)

本文是个人学习笔记,内容主要涉及树的集成模型随机森林(RandomForest)和梯度提升树(GradientBoostingDecisionTree)对titanic数据集进行二类分类。集成模型就是综合考量多个分类器的预测结果,再作出决策。“综合考量”的方式大体分2种:(1)按一定次序搭建多个分类模型,后续模型的加入要对现有集成模型的性能有所贡献,从而不断提升更新后的集成模型性能。在每一棵数生成过

2018-01-14 00:22:01 4278

原创 利用平行坐标轴分类的决策树分类器DecisionTreeClassifier进行二类分类(复习5)

本文是个人学习笔记,内容主要涉及决策树(DecisionTreeClassifier)对titanic数据集进行二类分类。当自变量和因变量呈现分段函数关系时(比如公交车让座),在数学上描述这种非线性关系是用分段函数,在ML模型里,决策树是描述这种非线性关系的好选择。决策树结点代表数据特征,每个节点下的分支代表对应特征值的分类,决策树的所有叶子节点表示模型的决策结果。使用多种不同的特征组合搭

2018-01-13 23:23:53 1131

原创 利用无参数的K近邻分类器KNeighborsClassifier进行三类分类(复习4)

本文是个人学习笔记,内容主要涉及KNN(KNeighborsClassifier)对sklearn内置的Iris数据集进行三类分类。 K近邻模型的大致决策方式如下图: 寻找与某个待分类样本在特征空间中距离最近的K个已标记样本作为参考,进而帮助做出分类决策。K取不同的值,会得到不同效果的分类器(比如上如K=3时红色点被分为绿色类,K=7时红色点被分为蓝色类)。K近邻算法没有参数训练过程,即没有通

2018-01-13 17:28:58 1559

原创 利用基于贝叶斯定理的朴素贝叶斯分类器MultinomialNB进行多类分类(复习3)

本文是个人学习笔记,内容主要涉及MultinomialNB(Naive Bayes)对sklearn内置的fetch_20newsgroups——新闻数据抓取器从互联网上即时下载的新闻文本数据进行多类分类。 朴素贝叶斯模型被广泛应用于互联网新闻的分类、垃圾邮件的筛选等分类任务,它单独考量每一维度特征被分类的条件概率,然后综合这些概率对其所在的特征向量做出分类预测,即“假设各个维度上的特征被分类的条件

2018-01-13 16:54:46 15408 7

原创 利用基于线性假设的支持向量机分类器LinearSVC进行多类分类(复习2)

本文是个人学习笔记,内容主要涉及SVC(Support Vector Classifier)对sklearn内置的digits邮票手写数字数据集进行线性多类分类。 支持向量机分类器(Support Vector Classifier)是根据训练样本的分布,搜索所以可能的线性分类器中最佳的那个,决定分类边界位置的样本并不是所有训练数据,是其中的两个类别空间的间隔最小的两个不同类别的数据点,即“支持向量

2018-01-13 16:00:11 2846

原创 利用基于线性假设的线性分类器LogisticRegression/SGDClassifier进行二类分类(复习1)

本文是个人学习笔记,内容主要涉及LR(LogisticRegression)和SGD(SGDClassifier)对breast-cancer数据集进行线性二分类。 线性分类器:假设数据特征与分类目标之间是线性关系的模型,通过累加计算每个维度的特征与各自权重的乘积来帮助类别决策。二类分类任务的评估指标:混淆矩阵 F1F1 measuremeasure是准确率和召回率两个指标的调和平

2018-01-13 15:16:27 1853

原创 XGBoost原理及公式推导(参考官网文档)

https://github.com/dmlc/xgboost/blob/master/doc/model.md#additive-trainingAdditive TrainingFirst thing we want to ask is what are the parameters of trees? You can find that what we need to learn...

2018-01-11 19:39:36 3245

原创 数据比赛大杀器:Python树形模型集成库Xgboost&LightGBM

以下内容是个人学习笔记,图片及调参内容参考自寒小阳老师讲义。sklearn库:中小型数据集;Xgboost/LightGBM库:工业界大型数据,可以分布式部署。 工业界非常喜欢树形模型原因:(1)可解释性好,和人的判断非常相似,可以顺着树的路径找出做决策的方式,出问题容易debug。(2)树形模型不需要做幅度缩放,树分裂时不受各个特征变化幅度的影响(衡量各个特征时,熵/Gini index的...

2018-01-07 00:01:31 2547

原创 MySQL基本框架及命令

本文是个人学习笔记,内容主要涉及SQL中对数据表的基本操作,学习文档来自w3school:http://www.w3school.com.cn/sql/index.aspSQL 是一门 ANSI 的标准计算机语言,用来访问和操作数据库系统。SQL 语句用于取回和更新数据库中的数据。SQL 对大小写不敏感!某些数据库系统要求在每条 SQL 命令的末端使用分号,有些则不必在每条 SQL 语句之后使...

2018-01-03 15:33:27 1424

原创 Tensorflow数据IO的三种方式

Tensorflow数据IO的三种方式:数据直接嵌入graph,由graph传入session中运行 ——> constsnt用placeholder占位符代替数据,运行时用feed_dict填入数据 ——> graph程序copy到不同机器,数据在local读(一个session只能执行一个graph,一个graph可以传输给多个session)Pipeline:用Queue机制异步的方式(生产者消费者模式)实现数据IO ——>tf.TextLinereader()每次读一行

2017-12-05 03:35:52 1152

原创 Tensorflow简介及GPU环境配置(win10)

Tensorflow是Google开源的深度学习框架,用于训练神经网络模型Google的神经网络可视化工具http://playground.tensorflow.org/下文为了叙述方便,将Tensorflow简记为tftf计算模型——计算图graphtf会将定义的“计算”自动转化成“计算图上的节点”,“节点之间的边”描述了“计算之间的依赖关系”,tf的计算图可以用来隔离

2017-12-05 03:35:14 545

原创 C++类的特性总结

无论是指针,还是类,套在内存模型上,很多逻辑都比较容易解释,内存才是王道啊~1.构造函数、析构函数、拷贝构造函数 https://blog.csdn.net/cymy001/article/details/78609991https://blog.csdn.net/cymy001/article/details/786165662.this指针3.sizeof()用于类运算符sizeof()用于确定指定类型需要多少内存(单位为字节)。用于类时,sizeof()不考虑成员函数.

2017-12-01 19:53:10 13931

原创 C++继承小笔记

内存静态存储区(static):全局变量、静态变量(static int a;)内存动态存储区(栈stack):局部变量内存自由存储区(堆heap):临时用数据其中静态存储区、动态存储区的变量空间开辟和释放自动进行,不需要程序人员操作内存;只有堆区需要手动开辟和释放空间:静态开辟——在编译时刻,数组的空间大小就开辟完成;动态开辟——malloc、calloc、realloc;手

2017-12-01 05:04:19 5079

原创 C++this指针、友元等小属性集锦

this指针关键字this包含“当前对象的地址”,即this指针的值为&object。在 某个类的成员方法 调用 其他成员方法 时,编译器将隐式得传递this指针。* 调用静态方法时,不会隐式得传递this指针(静态方法是所有实例共享的)。* 要在静态方法里 使用非静态实例变量,应显示地声明一个形参,并将实参设置为this指针。class A{private: int age; void fun(string test){ cout << test; }

2017-11-30 22:23:00 314

原创 C++多态小笔记

派生类多态:派生类实例 传入 基类 引用参数。

2017-11-30 08:20:41 190

原创 C++关键字static

全局静态变量在全局变量前,加上关键字static,全局变量就定义成一个全局静态变量。全局/静态区,在整个程序运行期间一直存在。初始化:未经初始化的 全局静态变量,会被自动初始化为0(自动对象的值是任意的,除非它被显式初始化)。作用域:全局静态变量 在声明它的文件之外是不可见的,准确地说,可见范围是 从定义之处开始,到文件结尾。局部静态变量在局部变量之前,加上关键字static,局部变量就成为一个局部静态变量。内存中的位置:静态存储区。初始化:未经初始化的局部静态变量会被.

2017-11-30 07:03:22 5991 1

原创 Python机器学习库sklearn KFold交叉验证分组情况样本

sklearn官网KFold交叉验证 http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html#sklearn.model_selection.KFoldfrom sklearn.cross_validation import KFoldfold = KFold(50,5,shuffle

2017-11-28 20:49:57 7011 2

原创 神经网络——激活函数

激活函数激活函数的主要作用是提供网络的非线性建模能力,分层的非线性映射学习能力。几乎所有的连续可导函数都可以用作激活函数,但目前常见的多是分段线性和具有指数形状的非线性函数。sigmoidsigmoid(x)=11+e−x,sigmoid′(x)=sigmoid(x)(1−sigmoid(x))sigmoid(x)=\frac{1}{1+e^{-x}},sigmoid^{'}(x)=sigmoid(x)(1-sigmoid(x))sigmoid(x)=1+e−x1​,sigmoid′(x)=sigm

2017-11-27 21:10:13 5609

原创 Keras框架作线性回归和非线性回归

import kerasimport numpy as npimport matplotlib.pyplot as plt#按顺序构成的模型from keras.models import Sequential#Dense全连接层from keras.layers import Dense #构建一个顺序模型model=Sequential()#在模型中添加一个全连接层#unit

2017-11-27 19:02:04 6093 1

test_ctr.zip

贝叶斯平滑机制计算ctr更能反映物品的点击率,用矩估计估计出来的参数alpha和beta,再把相应的给ctr计算做平滑,实验证明,使用该平滑机制计算的ctr更能反应物品的热度。

2020-05-29

underexpose_train.zip

用户点击的item序列embedding使用数据,类似一句话是一个文本序列,通常可以直接使用word2vec编码,同样可以对用户点击物品id序列进行编码。

2020-05-29

tfrecord数据.zip

tensorflow实战场景tfrecord方式读取数据的数据样本,现在tensorflow架构里限制整个流程瓶颈的是数据IO,用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取,有效利用GPU资源。

2020-05-17

数据集demo-word.sh.zip

google-code的word2vec训练工具配套数据,demo-word.sh

2019-09-19

word2vec.zip

This tool provides an efficient implementation of the continuous bag-of-words and skip-gram architectures for computing vector representations of words. These representations can be subsequently used in many natural language processing applications and for further research.

2019-09-19

README.md文档

spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provides high-level APIs in Scala, Java, Python, and R, and an optimized engine that supports general computation graphs for data analysis. It also supports a rich set of higher-level tools including Spark SQL for SQL and DataFrames, MLlib for machine learning, GraphX for graph processing, and Spark Streaming for stream processing.

2019-08-19

cnews.zip 新浪新闻RSS订阅频道10类文本数据

数据集是清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。数据集一共包括10类新闻,每类新闻65000条文本数据,训练集50000条,测试集10000条,验证集5000条。

2019-07-17

SI4安装及破解文件.zip

非常好用的适合撰写如C/C++或Java等程序语言的编辑器,可以自动列出程序的变量,量数等。

2019-06-28

cooking.stackexchange.tar.gz

Stack exchange 网站的烹饪部分下载问题示例及其相应标签数据集,用于fastText模型训练

2019-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除