自然语言处理
sina微博_SNS程飞
个人网站:www.ymshici.com
研究方向:机器学习数据挖掘社交网络推荐系统
展开
-
情感分析资源
转自:http://blog.sina.com.cn/s/blog_8af1069601019flb.html-----------------------------------------------------------------------------------------中文的 http://wenku.baidu.com/view/819b90d676转载 2014-02-21 11:27:53 · 3026 阅读 · 0 评论 -
搜狗实验室文本分类语料库
语料库介绍文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。应用案例:中文文本分类,主题跟踪与检测等。语料库说明语料库数据包括:[1] 用于分类的新闻语料,按照SOGOU-T网页语料库格式整理[2] 分原创 2014-03-03 16:04:05 · 18336 阅读 · 5 评论 -
【python系列】画lda主题分布折线图
说明利用python画lda训练出来的doc的主题分布的折线图。主题分布文件为GibbsLDA++中casestudy中给出的。代码#coding:utf-8import matplotlib.pyplot as pltimport random# 读取文件内容lines=open(r"D:\gibbslda\GibbsLDA++-0.2\model原创 2014-03-20 15:06:22 · 4042 阅读 · 2 评论 -
mmseg4j 中文分词简单代码实例
import com.chenlb.mmseg4j.*;import com.chenlb.mmseg4j.analysis.ComplexAnalyzer;import java.io.StringReader;/** * Created by mi on 17-5-9. */public class WordSeg { public static void main(S原创 2017-05-10 10:35:57 · 1732 阅读 · 2 评论