- 博客(5)
- 资源 (3)
- 收藏
- 关注
原创 使用java的爬虫策略获取京东评论
前言习惯了python的爬虫,当重新使用回Java来爬虫时,显得十分的陌生.当然这不是为了好玩,在需要快速爬取大量的评论的情况下,python的性能不及于java.我小规模的测试,大概python的平均爬取网页的时间为0.3秒,而java为0.1秒~0.2秒.因此,为了高效地我还是选回了java.爬虫演示代码感谢知乎网友的无私奉献,我得到了爬取评论的链接:http://club.jd.com/pro
2016-08-30 18:15:33 2992
原创 在eclipse中使用stanford构建中文依存关系树
前言stanford是著名的斯坦福大学自然语言处理工具包,现在支持的语言不仅仅是英语,而可以支持多方国家语言,中文就是其中的一部分.python中也有对应的nltk库,但核心的源代码还是JAVA.所以,我分享一些关于在eclipse中怎么使用stanford的过程stanford的安装使用我将stanford的相关jar包放到了我的百度云,不过也可以去官网下载(有点慢) xxx 将这些jar包导
2016-08-26 17:06:34 2033 1
原创 如何在ubuntu使用hanlp
前言 以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分词工具的原理介绍,我推荐一个好的博客: http://blog.csdn.net/daniel_ustc/article/details/48195287. 随着项目的需求,我需要使用斯坦福大学的自然语言处理包standford作依存关系树的构建,然而standford很调皮地
2016-08-26 12:30:19 2589
原创 在ubuntu中使用java版的spark
前言我在使用java版的spark之前,在ubuntu上安装了python版的spark.换而言之,我已经搭建好了spark的相关环境,例如scala,hadoop等.具体的可以查看我师弟的博客哈 http://www.cnblogs.com/adienhsuan/p/5654484.html 里面也有提供一些关于pyspark的使用,我主要讲述的是如何使用java的spark.安装eclips
2016-08-25 18:28:20 1717
原创 关于eclipse中的java heap space不足的问题总结(ubuntu版)
前言在普通的eclipse编程中,eclipse的JVM设置为(-Xms 50m, -Xmx 80m);但对于spark这样的大程序操作,需要的堆栈空间会很大.因此,我们要对JVM的设置参数调大一点.关于ubuntu的eclipse安装在讲配置之前,先要懂的eclipse在ubuntu系统中的安装流程,就一句命令行就好啦:sudo apt-get install eclipse-platform,
2016-08-25 17:12:54 4008
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人