锦堇年-CSDN博客

原创指代消解系列（1）-综述

一、什么是指代消解？1、指代的基本概念指代作为一种常见的语言现象，广泛存在于自然语言的各种表达中。eg:***俄罗斯总统*** 在德国发表讲话时表示：“我们不排除中油集团参与已拍卖的尤甘斯克的生产。”***他*** 表示，中油集团没有参加这次拍卖一般代词消解和早期的指代消解（Anaphora Resolution）指的是对显性代词消解算法的研究，再后来指代消解包含并开始侧重于共指(Corefe

2016-06-16 20:45:48 14097 6

原创大数据比赛（3）- 模型选择II

常用模型概述神经网络与深度学习初步基础

2016-05-10 10:02:51 913

原创大数据比赛（3）- 模型选择I

聊完特征，就要说说模型的选择与实现。虽然已经接触了不少机器学习方法和模型，但最近才对监督学习有了一些提纲挈领的认识，在介绍模型的同时对这些零散的知识进行简单的汇总。（谁让我健忘。。）监督学习的基本模式陈天奇大大有一篇将boost tree的文章里提到了监督学习的key concepts，抄来加深一下印象：监督学习要素：样本（标记）模型参数目标函数优化方法 i. 模型和参数模型指给定

2016-05-09 16:25:22 5805

原创学习笔记——Bias-variance

Bias-variance 分解是机器学习中一种重要的分析技术。给定学习目标和训练集规模，它可以把一种学习算法的期望误差分解为三个非负项的和，即本真噪音、bias和 variance。本真噪音是任何学习算法在该学习目标上的期望误差的下界；( 任何方法都克服不了的误差) bias（偏倚）度量了某种学习算法的平均估计结果所能逼近学习目标的程度；（独立于训练样本的误差，刻画了匹配的准确性和质量：一个高

2016-05-09 10:28:57 3021

原创重叠社区发现-LFM算法

#coding=utf-8from numpy import *#文件读取def LoadAdjacentMatrixData(filename,vertices): Adjmartrix = [[0 for col in range(vertices)] for row in range(vertices)] file_object = open(filename, 'r')

2016-05-01 13:13:21 10406 9

原创大数据比赛（2）-特征那点儿事

特征工程是一个非常重要的课题，是机器学习中不可或缺的一部分，但是它几乎很少出现于单独的机器学习的教程或教材中。所以需要在比赛的过程中多学习和体会。 1、什么是特征工程？

2016-04-22 16:03:27 4085

原创大数据比赛-综述

虽然只参与了几个小型的数据比赛，成绩也十分惨淡，但还是有一些小小收获记录下来以便查阅。 1、比赛流程：问题分析-》样本处理-》特征抽取-》模型选择/实现-》调参测试-》提交当然，与软件工程相同，比赛的过程也是迭代进行的，每次提交之后可能就要重新走一遍流程以发现改进点。以目前浅薄的经验来看，最重要的步骤是特征抽取、模型选择与调参，之后会进行详细介绍 2、注意事项： 1》戒骄戒躁：一两

2016-04-22 13:07:43 1270

原创微软笔试 Font Size

就A了一道题，滚粗了。。。#include<iostream>#include<math.h>using namespace std;int main(){ int n; int N,P,W,H,i,j; int s,p=0; int a[1000]; cin>>n; for(i=0;i<n;i++){ cin>>N>>P>>W>

2016-04-06 21:37:14 510

原创错题记录(1)-数理统计（含概率）

1、假设出现正面的次数是X，则X服从二项分布，二项分布的方差是np(1-p)；同样可信度的置信区间的长度随着样本容量n的增加而减少；

2016-04-02 16:45:08 1103

原创错题记录(1)-机器学习

1、HMM、CRF 隐马尔可夫模型（Hidden Markov Model，HMM），最大熵马尔可夫模型（Maximum Entropy Markov Model，MEMM）以及条件随机场（Conditional Random Field，CRF）是序列标注中最常用也是最基本的三个模型。HMM模型是对转移概率和表现概率直接建模，统计共现概率。 MEMM模型是对转移概率和表现概率建立联合概率，

2016-04-02 16:04:44 4629

原创 Theano(4) LSTM

#coding=utf-8import six.moves.cPickle as picklefrom collections import OrderedDictimport sysimport timeimport numpy as npimport theanofrom theano import configimport theano.tensor as Tfrom thea

2016-03-23 16:12:55 1015

原创 Theano(3) 通用RNN

#coding=utf-8import theanoimport numpy as npfrom theano import tensor as Tfrom collections import OrderedDictclass RNN(object): '''neural net model ''' def __init__(self,ni,nh,nc,lr=0.05,ba

2016-03-22 21:59:04 1471

原创 Theano(2) RNN训练词向量

一、项目简介项目 Recurrent Neural Networks with Word Embeddings 教程地址：http://deeplearning.net/tutorial/rnnslu.html Task The Slot-Filling (Spoken Language Understanding)给句子中每个word分配标签，是一个分类问题。 Dataset 数据集是

2016-03-22 17:16:12 3764

原创 Theano(1) 安装(Window64)及教程

一Theano的安装二教程翻译一、Theano的安装环境：Windows7 64位 + Python2.7 依赖：Numpy、Scipy包正文 : 1>Theano的编译安装需要上面提到的两个包，还需要g++的编译器，不幸的是一般我们只有GCC。解决办法是安装Minwg，注意要64位的，否则不兼容。下载地址：https://sourceforge.net/p

2016-03-20 22:07:18 615

原创天池大坑-阿里音乐尝试(1)

简单尝试一下阿里音乐，最多做到baseline吧，主要是想熟悉一下流程和工具 so，第一步将数据导入SQL中，百万级有Mysql就可以了，还是习惯windows下的XAMPP+NaviCat，简单好用。 http://www.site-digger.com/html/articles/20120525/34.html

2016-03-16 11:13:24 1755

原创 Leetcode(8)-medium2

92, 134, 136, 141, 142, 152, 153\92.Reverse Linked List II Reverse a linked list from position m to n. Do it in-place and in one-pass. 把[m,n]那一段reverse之后再拼回去。134.Gas Station http://www.cnblogs.com/f

2016-03-09 17:04:50 371

原创学习笔记(5)-标签传播(LPA)小结

1、社区及社区发现：网络图内部连接比较紧密的节点子集合对应的子图叫做社区（community），各社区节点集合彼此没有交集的称为非重叠型（disjoint）社区，有交集的称为重叠型（overlapping）社区。对给定的网络图寻找其社区结构的过程称为“社区发现”。大体上看，社区发现的过程就是一种聚类的过程。2、基本思想标签传播算法是不重叠社区发现的经典算法，其基本思想是：将一个节点的邻居节点

2016-03-08 20:50:14 12715 1

原创 c++试题(2)

一、快速排序数据结构书上的算法void quick_sort(int a[],int low,int high){ int l = low; int r = high; int key = a[l];//基准值（枢轴） //处理一侧已经没有其他数据的情况 if(low>=high){ return; }

2016-03-08 17:25:13 425

原创 c++试题(1)

一、用递归方式、非递归方式写函数将一个字符串反转非递归：char* reverse(char *str){ if(str != NULL){ int length=strlen(str); int i; char temp; //中间即停止，len=1的情况直接返回，奇数的情况中间不动 for

2016-03-08 16:58:00 362

原创面试准备

1、数据结构与算法面试题80道 http://blog.csdn.net/jokes000/article/details/7070520 2、二叉树 http://blog.csdn.net/fansongy/article/details/6798278 3、c语言面试大全 http://blog.chinaunix.net/uid-12077574-id-145080.html 4

2016-03-08 16:04:38 443

原创自然语言处理基本知识小结

1.什么是NLP？人与人、人与计算机交互中的语言问题。能力模型，通常是基于语言学规则的模型，建立在人脑中先天存在语法通则这一假设的基础上，认为语言是人脑的语言能力推导出来的，建立语言模型就是通过建立人工编辑的语言规则集来模拟这种先天的语言能力。又称“理性主义的”语言模型。应用模型，根据不同的语言处理应用而建立的特定语言模型，通常是基于统计的模型。又称“经验主义的”语言模型，使用大规模真实

2016-03-04 15:39:50 5259

分类器的设计就是在给定训练数据的基础上估计其概率模型P(Y|X)。监督学习方法又分生成方法（Generative approach）和判别方法（Discriminative approach），所学到的模型分别称为生成模型（Generative Model）和判别模型（Discriminative Model），典型的判别模型包括k近邻，感知机，决策树，支持向量机等，典型的生成模型有：朴素贝叶斯和隐

2016-03-04 15:20:00 533

原创 Leetcode(7) - medium1

11, 16, 24, 39, 43, 50, 6911.Container With Most Water My Submissions QuestionGiven n non-negative integers a1, a2, …, an, where each represents a point at coordinate (i, ai). n vertical lines are draw

2016-03-02 17:18:30 332

原创 Leetcode(6) - easy

7.Reverse Integer My Submissions Question Reverse digits of an integer. Example1: x = 123, return 321 Example2: x = -123, return -321 求解如下：public class Solution { public int reverse(int x) {

2016-03-02 13:47:17 259

原创 kaggle实战之Titanic(2)-分类器的选择与实现

数据读取和交叉验证：分别使用LR分类，决策树，随机森林但出现一个问题是在交叉验证中提升的准确率在提交后并无提升，有待考证 datafile = load_data('train.csv') train_target,train_data = data_clean(datafile) #洗牌 r = random.randint(2147483647) ran

2016-03-02 09:45:54 1222

原创 kaggle实战之Titanic (1)-预处理

由数据挖掘的知识可知，数据预处理包括： (1) 数据清理：填写缺失值，光滑噪声数据等等。 (2) 数据集成：将多个数据源合成一个数据源。此处只有1个csv文件，过 (3) 数据变换：平滑聚集，数据概化等。 (4) 数据规约：目的是减小数据量，同时又不影响结果。此处数据共891<1000行，暂不处理PassengerId 旅客ID Survived 是否活下来了，1:yes

2016-03-02 08:49:01 3212

原创文本分类学习笔记（6）- 贝叶斯

2016-02-29 20:57:08 621

原创文本分类学习笔记（5）- KNN

KNN分类器实现，运行极慢不推荐；#coding=utf-8from numpy import *from scipy import sparse,iofrom sklearn.datasets import load_filesfrom sklearn.cross_validation import train_test_splitfrom sklearn.feature_extract

2016-02-29 20:48:08 614

原创文本分类学习笔记（4）- LR模型

LR分类器实现，多分类的softmax模型：#coding=utf-8from scipy import sparse,iofrom sklearn.linear_model import LogisticRegressionfrom sklearn.naive_bayes import MultinomialNBfrom sklearn import metricsfrom numpy

2016-02-29 20:42:26 1502 1

原创 Leetcode(5)-Add two numbers

2 Add two numbers 模拟手工加和的过程即可，结构体中提供了构造函数；需要注意的是两个链表可能不等长，需要分别处理剩下的位数，还有最高位加和可能存在进位也需处理。/** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * Lis

2016-02-28 09:12:00 282

原创 Leetcode(4)-Two Sum

1.Two Sum 简单的想法就是遍历，尝试之后发现没有超时。有趣的是，题中没有提及但实际输入中存在负数，所以不能使用if(nums[i] > target) continue；剪枝class Solution {public: vector<int> twoSum(vector<int>& nums, int target) { vector<int> result;

2016-02-26 10:00:10 289

原创 Leetcode(3)-Summary Ranges

228 Summary Ranges For example, given [0,1,2,4,5,7], return [“0->2”,”4->5”,”7”].class Solution {public: string format(int begin, int end) { char buffer[32]; if (end == b

2016-02-15 17:17:47 303

原创 Leetcode(2) -Contains Duplicate

217.class Solution {public: bool containsDuplicate(vector<int>& nums) { map<int, int> int_map; for (int i = 0; i<nums.size(); i++) { if(int_map.count(nums[i])){

2016-02-15 16:59:49 277

原创 Leetcode(1)-happy数

A happy number is a number defined by the following process: Starting with any positive integer, replace the number by the sum of the squares of its digits, and repeat the process until the number equa

2015-12-25 16:32:35 341

原创学习笔记(4)-社区发现评价指标

目前使用的主要有：Q（Modulartiy），Jaccard指数与Fsame值，NMI也是常用指标。c语言实现：//当i和J属于同一个社团时，E函数等于l，否则等于0. 故只需计算同一社区的函数值double Modulartiy(int * cluster_assignment, int ** M, int vertices){ int i, j, k; int maxlabl

2015-12-25 15:05:23 4205

原创学习笔记(3)-重叠社区发现Copra算法

应师兄要求，阅读了有关重叠社区发现的文章Finding overlapping communities in networks by label propagation，文中提出了一种基于LPA的扩展算法COPRA，可以用于重叠社区的发现。简单来说，COPRA算法为每个节点添加了一个标签列表，列表的长度为算法的一个参数v，每个节点最多可以拥有v个标签，也即可以存在于最多v个社区之中。此外，COPR

2015-12-25 12:42:38 13946 21

原创文本分类学习笔记（3）- 特征提取

#coding=utf-8import osimport nltkfrom nltk.corpus import wordnet as wnfrom numpy import *from math import expfrom scipy import sparse,iofrom sklearn.linear_model import LogisticRegressionimport

2015-12-16 19:42:53 2949

原创学习笔记(2)-标签传播算法伪代码实现

算法名称：社区发现中的标签传播算法（LPA）算法输入：无向无权图邻接矩阵AdjacentMatrix，节点个数VerticeNum 算法输出：存储节点标签的分类数组Community//初始化每个节点的标签For i <- 0 to VerticeNum Do Community[i] <- i //寻找i节点的所有邻居存入Neighbor[i] FindMaete

2015-12-12 15:05:18 4701 1

原创学习笔记(1)-数据挖掘及其应用浅谈

刚刚结束数据挖掘的课程，对数据挖掘的理论与算法有了一定的了解，借此报告的机会对数据挖掘知识进行一些梳理，并对现有工作中数据挖掘的应用和存在的问题进行讨论。一、数据挖掘知识汇总（简介）：数据挖掘是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤，其本质是在大型的存储数据中自动的发现有用信息的过程。任务包括预测建模（分类及回归拟合

2015-12-12 11:24:13 1441

原创 NLP学习笔记(1)-词向量与语言模型

阅读的第一篇词向量相关的文献是Tomas Mikolov 2013年的论文，其中提到了Bengio在2003的经典文章。经过一番努力，粗略的学习了这两篇文献，并查阅了相关的资料，现简单整理如下： 1、词向量作为NLP的初学者，遇到的第一个难以理解的概念就是词向量（“Word Representation”或“Word Embedding”）。通俗的来说，词向量就是用一个向量来表示一个词，进而研

2015-12-11 23:23:20 4146

空空如也

空空如也