java学习
Quincy1994
这个作者很懒,什么都没留下…
展开
-
关于JAVA的多线程爬虫
前言以前喜欢python的爬虫是出于他的简洁,但到了后期需要更快,更大规模的爬虫的时候,我才渐渐意识到java的强大。Java有一个很好的机制,就是多线程。而且Java的代码效率执行起来要比python快很多。这份博客主要用于记录我对多线程爬虫的实践理解。线程线程是指一个任务从头至尾的执行流。线程提供了运行一个任务的机制。对于Java而言,可以在一个程序中并发地启动多个线程。这些线程可以在多处理器系原创 2016-09-09 14:30:52 · 2009 阅读 · 0 评论 -
使用java的爬虫策略获取京东评论
前言习惯了python的爬虫,当重新使用回Java来爬虫时,显得十分的陌生.当然这不是为了好玩,在需要快速爬取大量的评论的情况下,python的性能不及于java.我小规模的测试,大概python的平均爬取网页的时间为0.3秒,而java为0.1秒~0.2秒.因此,为了高效地我还是选回了java.爬虫演示代码感谢知乎网友的无私奉献,我得到了爬取评论的链接:http://club.jd.com/pro原创 2016-08-30 18:15:33 · 3003 阅读 · 0 评论 -
关于eclipse中的java heap space不足的问题总结(ubuntu版)
前言在普通的eclipse编程中,eclipse的JVM设置为(-Xms 50m, -Xmx 80m);但对于spark这样的大程序操作,需要的堆栈空间会很大.因此,我们要对JVM的设置参数调大一点.关于ubuntu的eclipse安装在讲配置之前,先要懂的eclipse在ubuntu系统中的安装流程,就一句命令行就好啦:sudo apt-get install eclipse-platform,原创 2016-08-25 17:12:54 · 4017 阅读 · 0 评论 -
如何在ubuntu使用hanlp
前言 以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分词工具的原理介绍,我推荐一个好的博客: http://blog.csdn.net/daniel_ustc/article/details/48195287. 随着项目的需求,我需要使用斯坦福大学的自然语言处理包standford作依存关系树的构建,然而standford很调皮地原创 2016-08-26 12:30:19 · 2596 阅读 · 0 评论 -
在eclipse中使用stanford构建中文依存关系树
前言stanford是著名的斯坦福大学自然语言处理工具包,现在支持的语言不仅仅是英语,而可以支持多方国家语言,中文就是其中的一部分.python中也有对应的nltk库,但核心的源代码还是JAVA.所以,我分享一些关于在eclipse中怎么使用stanford的过程stanford的安装使用我将stanford的相关jar包放到了我的百度云,不过也可以去官网下载(有点慢) xxx 将这些jar包导原创 2016-08-26 17:06:34 · 2044 阅读 · 1 评论 -
java实现文件夹的拷贝
import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;public class CopyFile { public static void copy(String sourceFile , String原创 2016-12-23 22:32:13 · 1330 阅读 · 0 评论