自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (3)
  • 收藏
  • 关注

原创 使用java的爬虫策略获取京东评论

前言习惯了python的爬虫,当重新使用回Java来爬虫时,显得十分的陌生.当然这不是为了好玩,在需要快速爬取大量的评论的情况下,python的性能不及于java.我小规模的测试,大概python的平均爬取网页的时间为0.3秒,而java为0.1秒~0.2秒.因此,为了高效地我还是选回了java.爬虫演示代码感谢知乎网友的无私奉献,我得到了爬取评论的链接:http://club.jd.com/pro

2016-08-30 18:15:33 2992

原创 在eclipse中使用stanford构建中文依存关系树

前言stanford是著名的斯坦福大学自然语言处理工具包,现在支持的语言不仅仅是英语,而可以支持多方国家语言,中文就是其中的一部分.python中也有对应的nltk库,但核心的源代码还是JAVA.所以,我分享一些关于在eclipse中怎么使用stanford的过程stanford的安装使用我将stanford的相关jar包放到了我的百度云,不过也可以去官网下载(有点慢) xxx 将这些jar包导

2016-08-26 17:06:34 2033 1

原创 如何在ubuntu使用hanlp

前言  以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分词工具的原理介绍,我推荐一个好的博客: http://blog.csdn.net/daniel_ustc/article/details/48195287.   随着项目的需求,我需要使用斯坦福大学的自然语言处理包standford作依存关系树的构建,然而standford很调皮地

2016-08-26 12:30:19 2589

原创 在ubuntu中使用java版的spark

前言我在使用java版的spark之前,在ubuntu上安装了python版的spark.换而言之,我已经搭建好了spark的相关环境,例如scala,hadoop等.具体的可以查看我师弟的博客哈 http://www.cnblogs.com/adienhsuan/p/5654484.html 里面也有提供一些关于pyspark的使用,我主要讲述的是如何使用java的spark.安装eclips

2016-08-25 18:28:20 1717

原创 关于eclipse中的java heap space不足的问题总结(ubuntu版)

前言在普通的eclipse编程中,eclipse的JVM设置为(-Xms 50m, -Xmx 80m);但对于spark这样的大程序操作,需要的堆栈空间会很大.因此,我们要对JVM的设置参数调大一点.关于ubuntu的eclipse安装在讲配置之前,先要懂的eclipse在ubuntu系统中的安装流程,就一句命令行就好啦:sudo apt-get install eclipse-platform,

2016-08-25 17:12:54 4008

cut命令使用大全

cut命令使用大全

2015-11-10

社会网络分析

社会网络(social network)是由图表示的异构多关系数据集,图中节点对应对象,边对应表示对象间联系或相互作用的链接。过去的几十年间,社会网络受到越来越多的关注。特别是移动网络和互联网的发展,产生了大量的,容易被计算机处理的社会网络数据。从这些数据中获取知识,从而理解商业行为,识别业务模式,捕捉用户行为,更好利用资源,提高服务质量,将成为运营商的核心竞争力之一。

2015-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除