2018年03月_gaoyishu91

原创 kaggle金融的数据处理方式

kaggle金融数据的解决如何设置x和y拿股票来说，对于股票的众多属性都可以变成一个向量的形式。这个向量x = ( x1, x2, x3....xn) 注意，x1也是一个向量，这个向量是纵向的，有m个数值代表m个样本。x每一个数据里面不同的值，里面的值就是取值，可以来自于不同时间，或者不同公司。y代表各种触发状态。例如: X: [ Open, Prev Close, Big, Ask, Beta....

2018-03-28 17:46:23 1351

原创《人工智能》工程师：支持向量机

支持向量机是一个有监督的二分类线性模型。核心方法：最大间隔分类器。与逻辑回归的对比：区别：逻辑回归输出的是一个概率模型，比如大于0.5分类为正，小于分类为负。支持向量机是确定的结果，输出是1或者-1。sgn(Wt) = -1 if Wt < 0；sgn(Wt) = 1 if Wt >= 0。损失函数的区别：L( Wt) = - y * logp(y=1|x) - (1-y)log(1-...

2018-03-27 17:56:27 398

原创 BoolanC++第一周笔记

第一周：C++面向对象高级编程（上）C++面向对象语言class中就应该包含两个部分，一个是复数，包括实部和虚部；第二部分就是能够对复数作用的函数，比如加减乘除。可以创造很多个复数的数值存储在内存地址中，函数就只需要一套地址。字符串对于string，字符串里面有一根指针，指向一串字符。当想要设计一个class需要指针时，需要很小心。基于对象面对的是单一的class的设计。面向对象面对的是多重cla...

2018-03-26 09:49:42 125

原创《人工智能》工程师：最大熵和EM算法

最大熵信息：i(x) = -log(p(x)) 概率p是对确定性的度量，那么信息就是对不确定性的度量。熵：是对随机事件平均不确定性的度量。H(X) = -1*np.sum(p(x)*np.log(p(x))平均互信息：信息增益I(X;Y) = np.sum(P(x,y)*(np.log(P(x,y)/P(x)P(y)))最大熵模型熵最大的事物，最可能接近它的真实状态。熵最大的模型就是最好的模型。最...

2018-03-19 11:09:19 515

原创《人工智能工程师》回归树模型

回归树模型初步当数据不是离散型变量而是数值或者连续值时，可以用回归树模型进行划分。回归树模型的本质是对样本空间的划分。划分的区域不相交的子区域。回归树模型的构建方法注意：区域Rj中的样本的结果是所有的样本点取平均得到的结果。RSS的偏差，这个是指预估结果和真实结果的差异。yi是真实值，yRj是指预估值（最小二分法）。为什么计算量大？空间划分有n种，那n种划分方式都要这么做就很难了。那么，要找到一个...

2018-03-11 14:23:30 600

原创《人工智能工程师》决策树模型：剪枝与过拟合

分支过多造成过拟合剪枝：主动去掉分支降低过拟合的风险，增强泛化能力。基本策略：预剪枝和后剪枝。一个提前终止生长，一个树形成之后再剪。用留出法进行评估。预剪枝：先确定根节点，在验证集上确定哪个属性是最佳的。先不划分，就是通过标签去算精度看看得分多少；若划分，就看划分后的精度，如果精度上升就可以。然后形成划分后的叶节点和包含的子集，再依据子集的属性进行下面的划分。后剪枝：先考虑最后一个分支，方便，容易...

2018-03-08 17:40:50 697

原创《人工智能工程师》树模型初步与进阶笔记

1.决策树模型决策树模型基于‘树的结构’进行决策。每个内部节点对应某个属性的‘测试’。每个分支对应于某个测试的一种可能结果（即该属性上的某个取值）。每个‘叶节点’对应于一个‘预测结果’。学习过程：通过对训练样本的分析来确定‘划分属性’。（内部节点的属性）预测过程：将测试事例从根节点开始，沿着划分属性所构成的‘判定测试序列’下行，直到叶节点。2.算法流程和最佳属性选择决策树的基本流程：总体流程：分而...

2018-03-07 21:31:29 321

gaoyishu91的博客