- 博客(9)
- 收藏
- 关注
转载 语义分析的一些方法
http://www.mamicode.com/info-detail-870099.html 语义分析的一些方法 时间:2015-06-18 13:04:46 阅读:5912 评论:0 收藏:0 [点我收藏+] 标签: 语义分析的一些方法 作者:火光摇曳 语义分析的一些方法(上篇) 语义分析的
2017-05-03 21:33:06 930
转载 利用条件随机场模型进行中文分词
中文分词的方法非常多,基于词库是最基本的,但是当前各大互联网公司基本上不会仅仅依赖于词库的分词,一般以机器学习的分词为主,词库分词的方式为辅。在很久以前,我提过利用隐马尔科夫模型进行中文分词,条件随机场其实是隐马尔科夫模型的一次升级版本,网上有很多关于条件随机场模型的分词,但是基本上很难看懂,也许是论文的缘故,那些作者习惯了一上来就是一堆复杂的公式,我也看了一些,获取有些作者自己都没搞懂,就弄了一
2017-05-03 20:41:30 724
原创 处理数据中的空格问题
任务需求:数据预处理阶段,需要剔除标题中前后的空格 考虑因素: 1、全角转半角 2、160号空格要注意,先转化或删除 3、使用trim()删除前后 代码: 1、全角转半角 /** * 全角转半角 * @param input String. * @return 半角字符串 */
2017-02-07 17:36:16 966
转载 CentOS 下中文文件名显示乱码
在windows上使用ftp上传文件到linux上,中文名称在Linux系统中显示为乱码。虽然将Linux的env设置了LANG=en_US.UTF-8,并且本地的Shell客户端编码也设置成UTF-8,但在Shell中(或通过http访问),仍是乱码…… 原因在于,Windows 的文件名中文编码默认为GBK,压缩或者上传后,文件名还会是GBK编码,而Linux中默认文件名编码为UTF8,
2017-01-19 16:26:01 3493
原创 centos中中文语言包的安装和使用
任务背景:中文显示乱码,需要在xshell中显示中文! 1、输入:date 查看显示为英文日期 2、输入:echo $LANG 不是显示: zh_CN.UTF-8 3、下载和安装中文包,root用户下: yum groupinstall chinese-support 4、配置:vi ~/.bashrc 在最后添加 export LANG="zh_CN.UTF-8"
2017-01-19 15:43:45 1039
转载 编译哈工大语言技术平台云LTP(C++)源码及LTP4J(Java)源码
转自:编译哈工大语言技术平台云LTP(C++)源码及LTP4J(Java)源码 JDK:java version “1.8.0_31” Java(TM) SE Runtime Environment (build 1.8.0_31-b13) Java HotSpot(TM) 64-Bit Server VM (build 25.31-b07, mixed mode) OS:win7 64b
2017-01-13 15:02:02 1537
转载 文本分类入门(番外篇)特征选择与特征权重计算的区别
在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的,因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡方检验量化权重后每篇文章都一样”等等困惑。 文本分类本质上也是一个模式识别
2017-01-11 10:42:41 270
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人