算法
熊野君
能力有限,如有错误,恳请批评指正。
展开
-
独立成分分析 ( ICA )
PCA是一个降维的过程,ICA则是帮助你从多个维度分离有用数据的过程。1.概念独立成分分析是从多元(多维)统计数据中寻找潜在因子或成分的一种方法.ICA与其它的方法重要的区别在于,它寻找满足统计独立和非高斯的成分。这里我们简要介绍ICA的基本概念、应用和估计原理。1.1多元数据的线性表示统计数据处理及相关领域中的一个重要和需要长期研究的问题就是,寻原创 2017-10-29 17:36:59 · 9033 阅读 · 2 评论 -
Keras中函数用法
from keras.models import Sequential from keras.layers import Dense, Dropout, Activation, Flatten from keras.layers.convolutional import Conv2D from keras.layers.pooling import MaxPooling2D from原创 2017-10-13 13:55:34 · 1130 阅读 · 1 评论 -
朴素贝叶斯(一)
引言贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。原创 2017-10-31 14:04:07 · 612 阅读 · 2 评论 -
朴素贝叶斯(二)
简单高效,吊丝逆袭虽然说朴素贝叶斯方法萌蠢萌蠢的,但实践证明在垃圾邮件识别的应用还令人诧异地好。Paul Graham先生自己简单做了一个朴素贝叶斯分类器,“1000封垃圾邮件能够被过滤掉995封,并且没有一个误判”。(Paul Graham《黑客与画家》)那个…效果为啥好呢?原创 2017-10-31 17:30:59 · 565 阅读 · 3 评论 -
数据可视化
import pandas as pd#import zipfileimport matplotlib.pyplot as pl#z = zipfile.ZipFile('../input/train.csv.zip')#print(z.namelist())train = pd.read_csv(open(r'C:\Users\lujinyu\Desktop\atae-lstm\atae-l原创 2017-10-15 21:27:18 · 574 阅读 · 0 评论 -
k-近邻算法(一)
一 简单k-近邻算法 1 k-近邻法简介 2 距离度量 3 Python3代码实现 31 准备数据集 32 k-近邻算法 33 整体代码 二 k-近邻算法实战之约会网站配对效果判定 1 实战背景 2 准备数据数据解析 3 分析数据数据可视化 4 准备数据数据归一化 5 测试算法验证分类器 6 使用算法构建完整可用系统 三 k-近邻算法实战之sklearn手写数字识别 1原创 2017-11-01 23:12:51 · 724 阅读 · 0 评论 -
机器学习模型同时处理不同类型的问题
主要的想法是:一个全新的模型框架,探索使用模型融合的方式将神经网络可解释同时化整为零将模型更加小巧化,训练更加迅速。当处理不同类型的问题时,大脑在想什么在做知乎看山杯的文本标签(该问题可以理解为一个简单的文本主题分类问题,为一段话赋予一个主题,如篮球、情感、国际新闻、娱乐八卦等)的模型时,我遇到一个非常困惑的问题,就是无论我怎么调整nlp模型的结构,都不能对样本中冷门标签做好分类。原创 2017-11-14 00:49:13 · 922 阅读 · 2 评论 -
从朴素贝叶斯到N-gram语言模型
四个字:条件独立。1. 引言:朴素贝叶斯的局限性朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是本节要接到的N-gram语言模型。2. N-gram语言模型是啥?2.1从假设性独立到联合概率链规则照抄我们前文原创 2017-11-14 23:15:49 · 1149 阅读 · 0 评论 -
R语言实现LDA主题模型分析知乎话题
这是一篇关于文本主题分析的应用实践,主要尝试聚焦几个问题,什么是LDA主题模型?如何使用LDA主题模型进行文本?我们将知乎上面的转基因话题精华帖下面的提问分成六大主题进行实践。转基因“风云再起”2017年5月18日璞谷塘悄然开张,这是小崔线上贩卖非转基因食品的网店,所卖的商品价格平均高于市场价5倍,小崔打着反转基因的名号卖着反转基因的食品,不由得令人想起了那些年小崔引发的转基因原创 2017-11-14 23:59:59 · 16191 阅读 · 20 评论 -
如何在Python中利用CVXOPT求解二次规划问题
问题描述:在实际生活中,我们经常会遇到一些优化问题,简单的线性规划可以作图求解,但是对于目标函数包含二次项时,则需要另觅它法在金融实践中,马科维茨均方差模型就有实际的二次优化需求作为金融实践中常用的方法,本篇将对CVXOPT中求解二次规划的问题进行举例详细说明,关于该方法在均方差优化中的实践应用,参见后续发帖1原创 2017-10-28 17:47:25 · 22701 阅读 · 12 评论 -
logistic函数
原文logistic回归详解一:为什么要使用logistic函数原创 2017-10-28 17:41:29 · 3724 阅读 · 0 评论 -
LCS最长公共子序列 动态规划方法 递归与非递归算法
首先我们要明确一点,LCS可以从第一个字母进行匹配也可以从最后一个字母进行匹配,a->b->c->d a到d的距离就是a到b的距离加上b到d的距离,递归算法import java.util.Scanner;public class LCS { static int LCS_LENGTH(int[][] c, char a[], char[] b, int m, int n原创 2015-06-07 19:56:12 · 2969 阅读 · 0 评论 -
MD5原理
一、MD5概念 MD5,即“Message-Digest Algorithm 5(信息-摘要算法)”,从名字来看就知道它是从MD3、MD4发展而来的一种加密算法,其主要通过采集文件的信息摘要,以此进行计算并加密。通过MD5算法进行加密,文件就可以获得一个唯一的MD5值,这个值是独一无二的,就像我们的指纹一样,因此我们就可以通过文件的MD5值来确定文件是否正确,密码进行加密后也会生成MD5原创 2017-10-27 20:47:48 · 4398 阅读 · 0 评论 -
keras实现attention based sequence to sequence model(首稿)
keras实现attention based sequence to sequence model原创 2017-10-27 21:45:21 · 1558 阅读 · 0 评论 -
Pandas中DateFrame修改列名
import pandas as pd a = pd.DataFrame({‘A’:[1,2,3], ‘B’:[4,5,6], ‘C’:[7,8,9]}) a A B C 0 1 4 7 1 2 5 8 2 3 6 9 方法一:暴力方法 a.col原创 2017-10-11 15:09:40 · 2388 阅读 · 0 评论 -
支持向量机SVM(一)
支持向量机,因其英文名为support vector machine,故一般简称SVM,是90年代中期发展起来的基于统计学习理论的一种机器学习方法,它是一种二类分类模型,其基本模型定义为特征空间上的间隔较大的线性分类器,其学习策略便是间隔较大化,最终可转化为一个凸二次规划问题的求解,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。原创 2017-10-28 14:19:08 · 522 阅读 · 1 评论 -
LSTM中文评论情感分析(粗糙版)
import pandas as pd #导入Pandasimport numpy as np #导入Numpyimport jieba #导入结巴分词from keras.callbacks import EarlyStoppingfrom keras.preprocessing import sequencefrom keras.optimizers import SGD, RMSpr原创 2017-10-11 21:50:15 · 2872 阅读 · 1 评论 -
文本情感分类:深度学习模型
# -*- coding:utf-8 -*-'''word embedding测试在GTX960上,18s一轮经过30轮迭代,训练集准确率为98.41%,测试集准确率为89.03%Dropout不能用太多,否则信息损失太严重'''import numpy as npimport pandas as pdimport jiebapos = pd.read_excel('pos.xls',原创 2017-10-11 21:53:25 · 2258 阅读 · 0 评论 -
损失函数(loss function也叫作cost function)
统计学习方法都是由模型,策略,和算法构成的,即统计学习方法由三要素构成,可以简单表示为:方法=模型+策略+算法损失函数(loss function也叫作cost function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构原创 2017-10-28 17:26:54 · 4054 阅读 · 0 评论