![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
lvxiao9856
【魏公村汽修职业技术学校】烟酒僧
展开
-
Kmeans聚类之建立词袋子模型
作者:finallyliuyu (转载请注明出处) 最近打算将自己的工作平台由C#,python等迁移到C++。这是我的第一个C++工作程序吧。 IDE:VS2008 language: C++ library:boost(安装boost库,先要安装python安装方法见《boost库安装方法》) tools:weka C++程序完成的功能:从数据库中读出文章-》分词(调用ICTCL转载 2013-12-28 14:12:55 · 1036 阅读 · 1 评论 -
文本分类资源和程序开源共享
文本语料库(包括中英文新闻)的详细说明以及下载地址为: http://www.datatang.com/data/13484 文本分类程序最新版的详细说明以及下载地址为: http://www.datatang.com/data/13483 文本分类的中间表达形式VSM模型的详细说明以及下载地址为: (1)英文语料的VSM模型: http://www.datatang.com/data/13转载 2013-12-28 14:19:42 · 566 阅读 · 0 评论 -
文本分类专题(ultimate 版)绝对是目前最全的C++版开源文本分类代码和最令人耳目一新的实验解释
文本分类专题(ultimate 版)绝对是目前最全的C++版开源文本分类代码和最令人耳目一新的实验解释 最终版本的文本分类代码、语料、以及中间文件都已经开源共享见: http://www.cnblogs.com/finallyliuyu/archive/2012/01/15/2322721.html。由于数据和程序规模比较大,就不在博客园上传了。大家可以自己注册下载。 (注:转载请注明作者转载 2013-12-28 14:24:11 · 726 阅读 · 0 评论 -
逻辑斯蒂回归(logistic regression)学习笔记
什么是逻辑斯蒂回归,参见维基百科的解释点击打开链接。 后面的参考博客已经给逻辑斯蒂回归做了很多基础东西的讲解(越是基础的东西越难讲清楚)。在这里我对逻辑斯蒂回归记录一点自己的认识。 两个问题: Q1,为什么选用logistic function? Q2,logistic regression到底在做什么? Q1,为什么选用logistic function?转载 2013-12-28 14:41:17 · 1667 阅读 · 0 评论 -
文本特征提取方法研究
一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化转载 2013-12-26 20:47:14 · 1166 阅读 · 0 评论 -
ICTCLAS2013 的使用方法
ICTCLAS2013 的使用方法 这个工具是什么?先看看他的官方介绍吧: NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 [ICTCLAS版转载 2013-12-26 20:50:23 · 864 阅读 · 0 评论