工程
文章平均质量分 81
superhy_scut
永远是菜鸟
展开
-
网络采集器Demo:Jsoup+Java多线程实现[爬虫](上)
ailab-mltk:http://blog.csdn.net/qdhy199148/article/details/49403585里面最简单,但是很常用的一个部分,就是网络爬虫,从网页上获取文本信息这里用到两个工具,一个就是Java多线程(基于Java5 以上的线程池模式,区别于过时的Runable),另外一个是一个小工具:Jsoup,用于解析html网页,获取其中的内容,关于Jsou原创 2015-11-01 00:01:47 · 4999 阅读 · 1 评论 -
命令行方式安装Python第三方工具包
python的第三方开源工具很多,但是python这门语言很有极客风范,需要使用命令来安装第三方工具(多年以前windows中是安装exe的方式,但是现在都取消了),虽然不如Java中的Jar那么方便,但是安装的过程走下来,还是蛮有feel的。为了防止自己忘记,再者分享给网友,把过程记录下来:首先需要安装python工具包的安装工具:1.setuptools-14.3.1;2.pip-6.原创 2015-06-07 23:01:34 · 8747 阅读 · 0 评论 -
lucene学习的第一个例子之创建索引
以前用过lucene 3.5,近来又要用到lucene,索性学一下最新的版本,lucene从4.0之后还是做了很大的调整,比如增加了中文分词器等,jar包也比较分散,并没有全部打包在core包中。1.添加jar包:除了core jar包以外,还要加上分词器通用common jar包,另外一个是中文分词器的smartcn jar包。2.按照常规的步骤编写第一个建立索引的代码:im原创 2014-02-07 10:17:43 · 793 阅读 · 0 评论 -
ailab-mltk 机器学习整合包 [广告]
这是实验室科研的时候,我自己开发的一个机器学习的整合工具,里面包含了一些比较好用或者是当前还算流行的机器学习工具,我将她们重新封装了一下,使得尽可能的用起来更加傻瓜方便一些,并提供了一些应用和测试的demo。当然,还包括一些网络爬虫、信息检索的东西,全部整合并将主要功能提炼傻瓜化了为了交流,更多的是想给实验室的师弟们留点遗产项目是完全开源的github:https://gi原创 2015-10-25 14:51:40 · 2083 阅读 · 0 评论 -
eclipse和myeclipse上集成使用github
github是什么东西我想不用再多说了吧,免费同步项目(必须开源)非常方便,在java开发过程中不可避免使用最流行的ide:eclipse(j2ee是myeclipse),在eclipse中安装github插件,随时同步项目当然很不错。下面是相对具体的步骤,有点基础的同学们应该一看就懂:1.设置本机的ssh协议:ssh协议用于github识别你的开发机器,只需一次设定,gith原创 2014-02-21 15:42:05 · 1305 阅读 · 0 评论 -
mongodb window安装
最近学习了MongoDB,对这个流行的NoSql数据库做了简单的了解。下面我简单介绍一下MongoDB在window7(32bit)系统下的安装步骤:1.到MongoDB官网下载MongoDB的压缩包:http://www.mongodb.org/downloads2.在本地磁盘上创建安装文件夹,在安装文件夹的旁边建立db文件夹用于存储数据,将压缩包拷到安装文件夹中,解压,打开原创 2014-01-27 12:43:37 · 675 阅读 · 0 评论 -
网络采集器Demo:Jsoup+Java多线程实现[爬虫](下)
ailab-mltk:http://blog.csdn.net/qdhy199148/article/details/49403585下半部分主要是介绍Java的多线程编程。我们得到了所有的有效链接和获取各个链接页面有效内容的方法,帮助大家回忆一下:1.public Set filterUrl(String seedUrl)2.public String getParagraphCon原创 2015-11-14 20:53:19 · 2704 阅读 · 1 评论 -
OpenNLP进行中文命名实体识别(上:预处理及训练模型)
使用Apach OpenNLP进行中文命名实体识别原创 2016-04-02 22:40:01 · 18448 阅读 · 4 评论 -
OpenNLP进行中文命名实体识别(下:载入模型识别实体)
使用OpenNLP训练命名实体识别模型原创 2016-04-03 19:01:00 · 9431 阅读 · 0 评论