自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (10)
  • 收藏
  • 关注

转载 java实现Kafka生产者示例

使用java实现Kafka的生产者12345678910111213141516171819202122232425262728

2016-10-28 14:42:56 897

转载 java实现Kafka的消费者示例

使用java实现Kafka的消费者123456789101112131415161718192021222324252627282930

2016-10-28 14:41:08 2704

原创 Eclipse新建maven web项目

(1)新建maven项目

2016-10-28 11:06:20 218

转载 scala使用JDBC连接mysql数据库

package jdbc import java.sql.DriverManagerimport java.sql.Connection object ScalaJDBC { def main(args: Array[String]) { // connect to the database named "mysql" on the localhost

2016-10-27 09:50:56 2085

转载 Spark MLlib实现的中文文本分类–Naive Bayes

文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。本文介绍使用Spark MLlib提供的朴素贝叶斯(Naive Bayes)算法,完成对中文文本的分类过程。主要包括中文分词、文本表示(TF-IDF)、模型训练、分类预测等。中文分词对于中文文本分类而言,需要先对文章进行

2016-10-25 15:02:11 757

转载 中文分词工具-IKAnalyzer下载及使用

最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。关于IKAnalyzer的介绍,网上很多,搜一下就知道了。下载地址见文章最后面。 下载解压之后主要使用和依赖以下文件:IKAnalyzer2012_u6.jar   — IKAnalyzer核心jar包IKAnaly

2016-10-25 10:00:25 3698

转载 Spark函数详解系列之RDD基本转换

摘要:  RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集  RDD有两种操作算子:         Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作   

2016-10-19 18:10:52 910

转载 HIve的JavaAPI操作

基于hadoop的Hive数据仓库JavaAPI简单调用的实例,关于Hive的简介在此不赘述。hive提供了三种用户接口:CLI,JDBC/ODBC和 WebUICLI,即Shell命令行JDBC/ODBC 是 Hive 的Java,与使用传统数据库JDBC的方式类似WebGUI是通过浏览器访问 Hive本文主要介绍的就是第二种用户接口,直接进入正题。 1、Hi

2016-10-17 20:49:36 308

转载 R语言知识体系概览

摘要: 现代的计算机“语言”,已经远远超越了机器编译、人机对话这些传统计算机科学的范畴,而是与世界交流的一种思维方式。这里介绍R语言的涉及到的内容,可谓博大精深。R语言知识体系概览R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热

2016-10-11 19:01:14 953

转载 Rserve与Java的跨平台通信

R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。要成为有理想的极客,我们不能停留

2016-10-11 18:12:21 294

转载 R语言,一行代码实现高大上的“高考文字云”(附完整教程)

一年一度的高考大日子又到了,在这里,浩彬老撕先预祝各位考生都能取得满意的成绩。每年的高考都会产生很多的爆点,引起很多的话题,今年也不例外,而且再创新高,诞生了高考界的第一网红:正好,R的文字云包“wordcloud2”也发布了,于是浩彬老撕也弄了一个高考文字云。你说要图案选择?咱有!支持中文,那是必须的!多少代码?一行足矣!Excuse me?!

2016-10-11 15:17:58 3202

转载 R语言内存管理

R中的对象(比如矩阵)在内存中存于两种不同的地方:第一种是堆内存(heap),其基本单元是“Vcells”,每个大小为8字节,新来一个对象就会申请一块空间,把值全部存在这里,和C里面的堆内存很像;第二种是地址对(cons cells),主要用来存储地址信息,最小单元一般在32位系统中是28字节、64位系统中是56字节。 1、ls()来查看当前所有对象名,对于每一个对象,可以通过ob

2016-10-11 14:19:17 839

文本分类语料库

Spark MLlib实现的中文文本分类–Naive Bayes。训练模型,语料非常重要,我这里使用的是搜狗提供的分类语料库,很早之前的了,这里只作为学习测试使用。

2016-10-25

搜狗实验室 文本分类语料库

搜狗实验室 文本分类语料库。可用于进行文本开发等相应实验练习

2016-10-25

redis设计与实现-(第二版)

熟悉redis原理,了解redis设计架构

2016-09-06

Scala编程(完整版)

学习scala编程利器!适合初学者。

2016-09-06

Scala编程(完整中文版)

2016-09-06

redis设计与实现(第二版)

2016-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除