自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

锦年的博客

NLP学弱的博客

  • 博客(42)
  • 收藏
  • 关注

原创 指代消解系列(1)-综述

一、什么是指代消解?1、指代的基本概念指代作为一种常见的语言现象,广泛存在于自然语言的各种表达中。eg:***俄罗斯总统*** 在德国发表讲话时表示:“我们不排除中油集团参与已拍卖的尤甘斯克的生产。”***他*** 表示,中油集团没有参加这次拍卖一般代词消解和早期的指代消解(Anaphora Resolution)指的是对显性代词消解算法的研究,再后来指代消解包含并开始侧重于共指(Corefe

2016-06-16 20:45:48 14033 6

原创 大数据比赛(3)- 模型选择II

常用模型概述神经网络与深度学习初步基础

2016-05-10 10:02:51 900

原创 大数据比赛(3)- 模型选择I

聊完特征,就要说说模型的选择与实现。虽然已经接触了不少机器学习方法和模型,但最近才对监督学习有了一些提纲挈领的认识,在介绍模型的同时对这些零散的知识进行简单的汇总。(谁让我健忘。。)监督学习的基本模式陈天奇大大有一篇将boost tree的文章里提到了监督学习的key concepts,抄来加深一下印象: 监督学习要素:样本(标记) 模型 参数 目标函数 优化方法 i. 模型和参数 模型指给定

2016-05-09 16:25:22 5789

原创 学习笔记——Bias-variance

Bias-variance 分解是机器学习中一种重要的分析技术。给定学习目标和训练集规模,它可以把一种学习算法的期望误差分解为三个非负项的和,即本真噪音、bias和 variance。本真噪音是任何学习算法在该学习目标上的期望误差的下界;( 任何方法都克服不了的误差) bias(偏倚) 度量了某种学习算法的平均估计结果所能逼近学习目标的程度;(独立于训练样本的误差,刻画了匹配的准确性和质量:一个高

2016-05-09 10:28:57 3001

原创 重叠社区发现-LFM算法

#coding=utf-8from numpy import *#文件读取def LoadAdjacentMatrixData(filename,vertices): Adjmartrix = [[0 for col in range(vertices)] for row in range(vertices)] file_object = open(filename, 'r')

2016-05-01 13:13:21 10368 9

原创 大数据比赛(2)-特征那点儿事

特征工程是一个非常重要的课题,是机器学习中不可或缺的一部分,但是它几乎很少出现于单独的机器学习的教程或教材中。所以需要在比赛的过程中多学习和体会。 1、什么是特征工程?

2016-04-22 16:03:27 4038

原创 大数据比赛-综述

虽然只参与了几个小型的数据比赛,成绩也十分惨淡,但还是有一些小小收获记录下来以便查阅。 1、比赛流程: 问题分析-》样本处理-》特征抽取-》模型选择/实现-》调参测试-》提交 当然,与软件工程相同,比赛的过程也是迭代进行的,每次提交之后可能就要重新走一遍流程以发现改进点。 以目前浅薄的经验来看,最重要的步骤是特征抽取、模型选择与调参,之后会进行详细介绍 2、注意事项: 1》戒骄戒躁:一两

2016-04-22 13:07:43 1251

原创 微软笔试 Font Size

就A了一道题,滚粗了。。。#include<iostream>#include<math.h>using namespace std;int main(){ int n; int N,P,W,H,i,j; int s,p=0; int a[1000]; cin>>n; for(i=0;i<n;i++){ cin>>N>>P>>W>

2016-04-06 21:37:14 499

原创 错题记录(1)-数理统计(含概率)

1、 假设出现正面的次数是X,则X服从二项分布,二项分布的方差是np(1-p); 同样可信度的置信区间的长度随着样本容量n的增加而减少;

2016-04-02 16:45:08 1083

原创 错题记录(1)-机器学习

1、HMM、CRF 隐马尔可夫模型(Hidden Markov Model,HMM),最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional Random Field,CRF)是序列标注中最常用也是最基本的三个模型。HMM模型是对转移概率和表现概率直接建模,统计共现概率。 MEMM模型是对转移概率和表现概率建立联合概率,

2016-04-02 16:04:44 4586

原创 Theano(4) LSTM

#coding=utf-8import six.moves.cPickle as picklefrom collections import OrderedDictimport sysimport timeimport numpy as npimport theanofrom theano import configimport theano.tensor as Tfrom thea

2016-03-23 16:12:55 1006

原创 Theano(3) 通用RNN

#coding=utf-8import theanoimport numpy as npfrom theano import tensor as Tfrom collections import OrderedDictclass RNN(object): '''neural net model ''' def __init__(self,ni,nh,nc,lr=0.05,ba

2016-03-22 21:59:04 1452

原创 Theano(2) RNN训练词向量

一、项目简介项目 Recurrent Neural Networks with Word Embeddings 教程地址:http://deeplearning.net/tutorial/rnnslu.html Task The Slot-Filling (Spoken Language Understanding)给句子中每个word分配标签,是一个分类问题。 Dataset 数据集是

2016-03-22 17:16:12 3741

原创 Theano(1) 安装(Window64)及教程

一Theano的安装二教程翻译一、Theano的安装 环境:Windows7 64位 + Python2.7 依赖:Numpy、Scipy包 正文 : 1>Theano的编译安装需要上面提到的两个包,还需要g++的编译器,不幸的是一般我们只有GCC。解决办法是安装Minwg,注意要64位的,否则不兼容。 下载地址:https://sourceforge.net/p

2016-03-20 22:07:18 601

原创 天池大坑-阿里音乐尝试(1)

简单尝试一下阿里音乐,最多做到baseline吧,主要是想熟悉一下流程和工具 so,第一步将数据导入SQL中,百万级有Mysql就可以了,还是习惯windows下的XAMPP+NaviCat,简单好用。 http://www.site-digger.com/html/articles/20120525/34.html

2016-03-16 11:13:24 1715

原创 Leetcode(8)-medium2

92, 134, 136, 141, 142, 152, 153\92.Reverse Linked List II Reverse a linked list from position m to n. Do it in-place and in one-pass. 把[m,n]那一段reverse之后再拼回去。134.Gas Station http://www.cnblogs.com/f

2016-03-09 17:04:50 361

原创 学习笔记(5)-标签传播(LPA)小结

1、社区及社区发现: 网络图内部连接比较紧密的节点子集合对应的子图叫做社区(community),各社区节点集合彼此没有交集的称为非重叠型(disjoint)社区,有交集的称为重叠型(overlapping)社区。对给定的网络图寻找其社区结构的过程称为“社区发现”。大体上看,社区发现的过程就是一种聚类的过程。2、基本思想 标签传播算法是不重叠社区发现的经典算法,其基本思想是:将一个节点的邻居节点

2016-03-08 20:50:14 12660 1

原创 c++试题(2)

一、快速排序数据结构书上的算法void quick_sort(int a[],int low,int high){ int l = low; int r = high; int key = a[l];//基准值(枢轴) //处理一侧已经没有其他数据的情况 if(low>=high){ return; }

2016-03-08 17:25:13 412

原创 c++试题(1)

一、用递归方式、非递归方式写函数将一个字符串反转非递归:char* reverse(char *str){ if(str != NULL){ int length=strlen(str); int i; char temp; //中间即停止,len=1的情况直接返回,奇数的情况中间不动 for

2016-03-08 16:58:00 353

原创 面试准备

1、数据结构与算法面试题80道 http://blog.csdn.net/jokes000/article/details/7070520 2、二叉树 http://blog.csdn.net/fansongy/article/details/6798278 3、c语言面试大全 http://blog.chinaunix.net/uid-12077574-id-145080.html 4

2016-03-08 16:04:38 433

原创 自然语言处理基本知识小结

1.什么是NLP? 人与人、人与计算机交互中的语言问题。 能力模型,通常是基于语言学规则的模型,建立在人脑中先天存在语法通则这一假设的基础上,认为语言是人脑的语言能力推导出来的,建立语言模型就是通过建立人工编辑的语言规则集来模拟这种先天的语言能力。又称“理性主义的”语言模型。 应用模型,根据不同的语言处理应用而建立的特定语言模型,通常是基于统计的模型。又称“经验主义的”语言模型,使用大规模真实

2016-03-04 15:39:50 5245

原创 机器学习基础小结

分类器的设计就是在给定训练数据的基础上估计其概率模型P(Y|X)。监督学习方法又分生成方法(Generative approach)和判别方法(Discriminative approach),所学到的模型分别称为生成模型(Generative Model)和判别模型(Discriminative Model),典型的判别模型包括k近邻,感知机,决策树,支持向量机等,典型的生成模型有:朴素贝叶斯和隐

2016-03-04 15:20:00 521

原创 Leetcode(7) - medium1

11, 16, 24, 39, 43, 50, 6911.Container With Most Water My Submissions QuestionGiven n non-negative integers a1, a2, …, an, where each represents a point at coordinate (i, ai). n vertical lines are draw

2016-03-02 17:18:30 314

原创 Leetcode(6) - easy

7.Reverse Integer My Submissions Question Reverse digits of an integer. Example1: x = 123, return 321 Example2: x = -123, return -321 求解如下:public class Solution { public int reverse(int x) {

2016-03-02 13:47:17 243

原创 kaggle实战之Titanic(2)-分类器的选择与实现

数据读取和交叉验证:分别使用LR分类,决策树,随机森林 但出现一个问题是在交叉验证中提升的准确率在提交后并无提升,有待考证 datafile = load_data('train.csv') train_target,train_data = data_clean(datafile) #洗牌 r = random.randint(2147483647) ran

2016-03-02 09:45:54 1190

原创 kaggle实战之Titanic (1)-预处理

由数据挖掘的知识可知,数据预处理包括: (1) 数据清理:填写缺失值,光滑噪声数据等等。 (2) 数据集成:将多个数据源合成一个数据源。此处只有1个csv文件,过 (3) 数据变换:平滑聚集,数据概化等。 (4) 数据规约: 目的是减小数据量,同时又不影响结果。此处数据共891<1000行,暂不处理PassengerId 旅客ID Survived 是否活下来了,1:yes

2016-03-02 08:49:01 3173

原创 文本分类学习笔记(6)- 贝叶斯

贝叶斯分类器: 先验概率P(c)= 类c下单词总数/整个训练样本的单词总数 类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|) V是训练样本的单词表(即抽取单词,单词出现多次,只算一个),|V|则表示训练样本包含多少“个”单词。P(tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据,而P(c)则可以认为是类别c在整体上占多大比例

2016-02-29 20:57:08 599

原创 文本分类学习笔记(5)- KNN

KNN分类器实现,运行极慢不推荐;#coding=utf-8from numpy import *from scipy import sparse,iofrom sklearn.datasets import load_filesfrom sklearn.cross_validation import train_test_splitfrom sklearn.feature_extract

2016-02-29 20:48:08 595

原创 文本分类学习笔记(4)- LR模型

LR分类器实现,多分类的softmax模型:#coding=utf-8from scipy import sparse,iofrom sklearn.linear_model import LogisticRegressionfrom sklearn.naive_bayes import MultinomialNBfrom sklearn import metricsfrom numpy

2016-02-29 20:42:26 1491 1

原创 Leetcode(5)-Add two numbers

2 Add two numbers 模拟手工加和的过程即可,结构体中提供了构造函数;需要注意的是两个链表可能不等长,需要分别处理剩下的位数,还有最高位加和可能存在进位也需处理。/** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * Lis

2016-02-28 09:12:00 265

原创 Leetcode(4)-Two Sum

1.Two Sum 简单的想法就是遍历,尝试之后发现没有超时。有趣的是,题中没有提及但实际输入中存在负数,所以不能使用if(nums[i] > target) continue;剪枝class Solution {public: vector<int> twoSum(vector<int>& nums, int target) { vector<int> result;

2016-02-26 10:00:10 274

原创 Leetcode(3)-Summary Ranges

228 Summary Ranges For example, given [0,1,2,4,5,7], return [“0->2”,”4->5”,”7”].class Solution {public: string format(int begin, int end) { char buffer[32]; if (end == b

2016-02-15 17:17:47 289

原创 Leetcode(2) -Contains Duplicate

217.class Solution {public: bool containsDuplicate(vector<int>& nums) { map<int, int> int_map; for (int i = 0; i<nums.size(); i++) { if(int_map.count(nums[i])){

2016-02-15 16:59:49 263

原创 Leetcode(1)-happy数

A happy number is a number defined by the following process: Starting with any positive integer, replace the number by the sum of the squares of its digits, and repeat the process until the number equa

2015-12-25 16:32:35 324

原创 学习笔记(4)-社区发现评价指标

目前使用的主要有:Q(Modulartiy),Jaccard指数与Fsame值,NMI也是常用指标。c语言实现://当i和J属于同一个社团时,E函数等于l,否则等于0. 故只需计算同一社区的函数值double Modulartiy(int * cluster_assignment, int ** M, int vertices){ int i, j, k; int maxlabl

2015-12-25 15:05:23 4173

原创 学习笔记(3)-重叠社区发现Copra算法

应师兄要求,阅读了有关重叠社区发现的文章Finding overlapping communities in networks by label propagation,文中提出了一种基于LPA的扩展算法COPRA,可以用于重叠社区的发现。简单来说,COPRA算法为每个节点添加了一个标签列表,列表的长度为算法的一个参数v,每个节点最多可以拥有v个标签,也即可以存在于最多v个社区之中。 此外,COPR

2015-12-25 12:42:38 13872 21

原创 文本分类学习笔记(3)- 特征提取

#coding=utf-8import osimport nltkfrom nltk.corpus import wordnet as wnfrom numpy import *from math import expfrom scipy import sparse,iofrom sklearn.linear_model import LogisticRegressionimport

2015-12-16 19:42:53 2930

原创 学习笔记(2)-标签传播算法伪代码实现

算法名称:社区发现中的标签传播算法(LPA) 算法输入:无向无权图邻接矩阵AdjacentMatrix,节点个数VerticeNum 算法输出:存储节点标签的分类数组Community//初始化每个节点的标签For i <- 0 to VerticeNum Do Community[i] <- i //寻找i节点的所有邻居存入Neighbor[i] FindMaete

2015-12-12 15:05:18 4667 1

原创 学习笔记(1)-数据挖掘及其应用浅谈

刚刚结束数据挖掘的课程,对数据挖掘的理论与算法有了一定的了解,借此报告的机会对数据挖掘知识进行一些梳理,并对现有工作中数据挖掘的应用和存在的问题进行讨论。 一、数据挖掘知识汇总(简介): 数据挖掘是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤,其本质是在大型的存储数据中自动的发现有用信息的过程。任务包括预测建模(分类及回归拟合

2015-12-12 11:24:13 1424

原创 NLP学习笔记(1)-词向量与语言模型

阅读的第一篇词向量相关的文献是Tomas Mikolov 2013年的论文,其中提到了Bengio在2003的经典文章。经过一番努力,粗略的学习了这两篇文献,并查阅了相关的资料,现简单整理如下: 1、词向量 作为NLP的初学者,遇到的第一个难以理解的概念就是词向量(“Word Representation”或“Word Embedding”)。通俗的来说,词向量就是用一个向量来表示一个词,进而研

2015-12-11 23:23:20 4124

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除