- 博客(21)
- 收藏
- 关注
转载 特征选择方法之TF-IDF、DF
TF_IDF, DF都是通过简单的统计来选择特征,因此把它们放在一块介绍 1、TF-IDF 单词权重最为有效的实现方法就是TF*IDF, 它是由Salton在1988 年提出的。其中TF 称为词频, 用于计算该词描述文档内容的能力; IDF 称为反文档频率, 用于计算该词区分文档的能力。TF*IDF 的指导思想建立在这样一条基本假设之上: 在一个文本中出现很多次的单词, 在
2016-12-08 08:12:51 19870
转载 特征选择方法之期望交叉熵
本文转自:http://blog.csdn.net/fighting_one_piece/article/details/38562183期望交叉熵也称为KL距离,反映的是文本类别的概率分布和在出现了某个特征的条件下文本类别的概率分布之间的距离,具体公式表示如下其中, P(t)表示特征t在文本中出现的概率, P(ci)表示ci类文本在文本集中出现的概率, P(ci|t)
2016-12-08 05:51:31 4357
原创 特征选择方法之互信息
互信息是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量,具体的计算公式为:其中U、C代表两个事件,e的取值可以为0或者1,1代表出现这个事件,0代表不出现。把上述公式拆解为统计形式为:其中N11是表示全部数据中两个事件同时出现的概率,N表示全部事件出现的次数,而N0.则表示N01+N00。实际做单特征选择的时候,我们把某个特征是否出现和分类是否正确这两
2016-12-08 05:44:30 10983
转载 特征选择算法之开方检验
本文转自:http://blog.csdn.net/lixuemei504/article/details/7280567前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记
2016-12-08 04:44:46 611
转载 特征选择方法之信息增益
原文地址:http://blog.csdn.net/lixuemei504/article/details/7278748 前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的
2016-12-08 04:29:32 2166
原创 机器学习相关资料整理
1.视频教程1)百度余凯机器学习视频教程:http://wenku.baidu.com/course/study/53b9fd0a79563c1ec5da71072)斯坦福大学Andrew Ng机器学习公开课:http://wenku.baidu.com/course/study/53b9fd0a79563c1ec5da71073)台湾大学林轩田机器学习视频,分机器学习基石和机器学习技
2016-11-24 05:36:14 456
转载 多层神经网络BP算法 原理及推导
本文转自:http://www.cnblogs.com/liuwu265/p/4696388.html首先什么是人工神经网络?简单来说就是将单个感知器作为一个神经网络节点,然后用此类节点组成一个层次网络结构,我们称此网络即为人工神经网络(本人自己的理解)。当网络的层次大于等于3层(输入层+隐藏层(大于等于1)+输出层)时,我们称之为多层人工神经网络。1、神经单元的选择
2016-11-17 05:21:01 8363
转载 深度学习之一:卷积神经网络CNN经典模型整理(Lenet-5)
本文介绍以下几个CNN经典模型:Lenet(1986年)、Alexnet(2012年)、GoogleNet(2014年)、VGG(2014年)、Deep Residual Learning(2015年)1.LeNet-5 Lenet-5是一个经典的CNN网络模型,几乎所有讲CNN的资料都会提到该模型;该模型是为了识别手写字体和计算机打印字符而设计的,而且该模型确实在手写体识
2016-11-02 01:08:08 13349
原创 含有多个main程序的jar包运行方式
通常情况下,一个java项目中,主程序只有一个,这种情况下,打包jar时,一般需要指定主程序。拿maven来说,配置主程序的方式如下:添加pox.xml org.apache.maven.plugins maven-shade-plugin
2016-10-09 21:10:27 1625
转载 如何将maven项目打包成可执行的jar
方法一:将项目及所依赖的所有jar包打包成一个jar。1、pom.xml添加assembly插件 2、执行mvn assembly:assembly 3、生成如下文件 4、执行Java -jar quickstart-1.0.0-jar-with-dependencies.jar 备注:第2步的命令也可以改成m
2016-10-09 21:04:35 583
原创 centos 6.6 使用tomcat8部署solr5.5.3
最近工作中用到solr做搜索,要用solr做搜索服务,自然,首先要部署solr环境,网上关于solr部署的博文很多,我在部署时主要是参考了下面这篇博客:centos 6.6 使用tomcat6部署solr5.3.1。 Solr现在是一个独立的服务器。从Solr5.0开始,Solr不再发布为在任何Servlet容器中部署的“war”Web应用程序包(Web Application A
2016-10-08 06:00:17 360
转载 中文依存句法分析概述及应用
本文转自http://blog.csdn.net/abc006250/article/details/7689872 句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务
2016-09-05 22:32:00 6770
原创 CRF++中文分词
前面讲了对于CRF用于序列标注的基本问题的理解,本文记录下CRF用于中文分词的基本步骤。本文中选用的CRF是目前应用比较广的CRF++,分词语料用的是北京大学自然语言处理实验室标注好的人民日报98年1月的新闻语料。下面是具体的步骤: 1.CRF++安装 CRF++的官网:http://crfpp.sourceforge.net/ 我用的是Ubutnu,所以,下载的是源
2016-08-27 15:52:26 1234
原创 中文分词-机械分词法
中文分词是中文自然语言处理的基础,中文分词的正确率如何直接影响后续的词性标注(也有些词性标注算法不需要事先分词,但标注效果往往比先分词后标注差),实体识别、句法分析、语义分析。常用的分词方法主要有依赖词典的机械分词和序列标注方法。 1.常用的机械分词方法 在自然语言处理相关的书籍资料中常提到的机械分词方法主要有正向最大匹配、正向最小匹配、逆向最大匹配、逆向最小匹配四种
2016-08-05 05:13:00 3090
原创 条件随机场(CRF)— 绪论
条件随机场是一个非常重要的序列标注模型,在中文切词,词性标注,命名实体识别等自然语言处理场景下得到广泛应用,并且取得了相当不错的效果,目前比较流行的开源中文自然语言处理工具FuDanNLP就通过crf实现分词,实体识别等功能(C++实现的中科院分词工具ICTCLAS,python实现的结巴分词都使用的隐马模型,可见序列标注模型在分词领域有明显优势,至于这两个为什么没使用crf,我觉得可能是HMM更
2016-07-29 04:15:12 556
原创 64位centos部署python PIL
PIL这个包的全称是Python Imaging Library。PIL提供强大的图形处理的能力,并提供广泛的图形文件格式支持,该库能进行图形格式的转换、打印和显示。还能进 行一些图形效果的处理,如图形的放大、缩小和旋转等。是Python用户进行图象处理的强有力工具1、安装PIL依赖库yum -y install zlib zlib-develyum
2016-07-27 22:00:49 454
原创 CentOS6.8部署Keras环境
一.升级python到2.7.3版本1)安装依赖库yum -y updateyum groupinstall -y developmentyum install -y zlib-dev openssl-devel sqlite-devel bzip2-devel2)安装pyhon 2.7.3wget http://www.python.org/f
2016-07-27 21:34:18 2292
原创 中文同义词词典
// 该词典来源于开源中文分词软件盘古分词揭穿,戳穿 聪慧,聪明 葱郁,葱茏 粗暴,粗鲁 粗俗,粗鄙 粗鄙,粗俗 篡夺,夺取 懦弱,脆弱 村庄,村落 村子,村庄 存放,寄存 寄放,存放 过错,错误 达到,到达 回覆,答复 端详,打量 古板,呆板 拘捕,逮捕 率领,带领 懒惰,怠惰 担负,担当 担任,担负 畏
2016-07-26 22:28:37 13910
转载 自然语言处理人名识别常用词典
1.中文常见姓氏词典该词典来源于盘古分词中文分词开源软件,盘古分词用该词典识别人名//有明显歧异的姓氏"王","张","黄","周","徐","胡","高","林","马","于","程","傅","曾","叶","余","夏","钟","田","任","方","石","熊","白","毛","江","史","候","龙","万","段", "雷","钱","汤
2016-07-26 21:45:05 7635
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人