web
文章平均质量分 79
flying1217
这个作者很懒,什么都没留下…
展开
-
利用HtmlParse抽取网页正文内容
最近在做有关自然语言抽取方面的研究,接触到了很多相关的工具包,尤其是关于html中格式文本的抽取,虽然网上有很多相关高效算法,但我只想尽量简单快捷地将我需要的内容从html中抽取出来。因此,我只需要一个轻量级的工具,满足我的需求就行了。之前在网上搜索了一下,主要有Jtidy和HtmlParser这两个工具,都是java的。Jtidy的主页是:http://jtidy.sourceforge.net原创 2012-03-03 13:23:16 · 2114 阅读 · 0 评论 -
解决win7中80端口被占用
今天由于学习需要,在本地安装了xampp,用于创建 lamp环境,但没想到发现apache却无法启动,80端口被占用。于是自然而然地就必须检查哪个进程占用着80端口,在cmd下面输入命令:netstat -ano,在输出的结果中找到占用80端口的进程pid,发现是4,然后在任务管理器中查看pid为4的是什么进程。一查就发现不对了,竟然是System进程占用着。System是WINDOWS页面内存管原创 2012-03-03 13:35:50 · 1228 阅读 · 0 评论