- 博客(10)
- 资源 (2)
- 收藏
- 关注
转载 JAVA自然语言处理NLP工具包
1. Java自然语言处理 LingPipeLingPipe 是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查
2015-11-27 16:09:25 8386
转载 错误:Unsupported major.minor version 51.0(jdk版本错误)
java.lang.UnsupportedClassVersionError: org/apache/nutch/crawl/Crawl3 : Unsupported major.minor version 51.0 at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineCla
2015-11-26 20:44:10 844
转载 ANSJ调用word2vec model文件
在使用word2vec对文本进行分析时能产生一个bin文件,可以用ANSJ调用该文件得到相近词,等同于替换 ./distance vectors.bin命令。代码如下:import java.io.BufferedInputStream;import java.io.DataInputStream;import java.io.FileInputStream;im
2015-11-23 15:46:28 1791
转载 Python正则表达式指南
1. 正则表达式基础1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。如果已经在其他语
2015-11-21 20:38:52 596
转载 word2vec使用指导
word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。一、理论概述(主要来源于http://licstar.net/archives/328这篇博客)1.词向量是什么自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。 NLP
2015-11-20 15:14:17 1272
转载 用rm递归删除子目录下所有.o后缀文件
find . -name "*.o" | xargs rm -f可以通过管道命令来操作,先find出主目录 下想删除的文件,然后通过“xargs”这个构造参数列表并运行命令。find named/ -name *.bak | xargs rm -f以下是转的文件Linux文件查找命令find,xargs详述总结:zhy2111314
2015-11-19 14:31:39 9464
转载 GBDT(MART) 迭代决策树入门教程 | 简介
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g
2015-11-18 21:00:20 685
转载 常见面试之机器学习算法思想简单梳理
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺
2015-11-18 20:57:59 920
转载 中文知识图谱研讨会的学习总结 (上) 图谱引入、百度知心、搜狗知立方
知识图谱(Knowledge Graph)是当前学术界和企业界的研究热点。中文知识图谱的构建对中文信息处理和中文信息检索具有重要的价值。中国中文信息学会(CIPS)邀请了有约10家从事知识图谱研究和实践的著名高校、研究机构和企业的专家及学者有意参与并发表演讲,下面就是第一届全国中文知识图谱研讨会的学习笔记。 会议介绍地址和PPT下载链接:http://www.cipsc.org.
2015-11-16 18:35:00 2464
转载 CRF 简介入门
CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词的词性,例如:名词,动词,助词)命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词
2015-11-12 14:25:14 2894
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人