- 博客(12)
- 资源 (10)
- 收藏
- 关注
转载 java实现Kafka生产者示例
使用java实现Kafka的生产者12345678910111213141516171819202122232425262728
2016-10-28 14:42:56 897
转载 java实现Kafka的消费者示例
使用java实现Kafka的消费者123456789101112131415161718192021222324252627282930
2016-10-28 14:41:08 2704
转载 scala使用JDBC连接mysql数据库
package jdbc import java.sql.DriverManagerimport java.sql.Connection object ScalaJDBC { def main(args: Array[String]) { // connect to the database named "mysql" on the localhost
2016-10-27 09:50:56 2085
转载 Spark MLlib实现的中文文本分类–Naive Bayes
文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。本文介绍使用Spark MLlib提供的朴素贝叶斯(Naive Bayes)算法,完成对中文文本的分类过程。主要包括中文分词、文本表示(TF-IDF)、模型训练、分类预测等。中文分词对于中文文本分类而言,需要先对文章进行
2016-10-25 15:02:11 757
转载 中文分词工具-IKAnalyzer下载及使用
最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。关于IKAnalyzer的介绍,网上很多,搜一下就知道了。下载地址见文章最后面。 下载解压之后主要使用和依赖以下文件:IKAnalyzer2012_u6.jar — IKAnalyzer核心jar包IKAnaly
2016-10-25 10:00:25 3698
转载 Spark函数详解系列之RDD基本转换
摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作
2016-10-19 18:10:52 910
转载 HIve的JavaAPI操作
基于hadoop的Hive数据仓库JavaAPI简单调用的实例,关于Hive的简介在此不赘述。hive提供了三种用户接口:CLI,JDBC/ODBC和 WebUICLI,即Shell命令行JDBC/ODBC 是 Hive 的Java,与使用传统数据库JDBC的方式类似WebGUI是通过浏览器访问 Hive本文主要介绍的就是第二种用户接口,直接进入正题。 1、Hi
2016-10-17 20:49:36 308
转载 R语言知识体系概览
摘要: 现代的计算机“语言”,已经远远超越了机器编译、人机对话这些传统计算机科学的范畴,而是与世界交流的一种思维方式。这里介绍R语言的涉及到的内容,可谓博大精深。R语言知识体系概览R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热
2016-10-11 19:01:14 953
转载 Rserve与Java的跨平台通信
R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。要成为有理想的极客,我们不能停留
2016-10-11 18:12:21 294
转载 R语言,一行代码实现高大上的“高考文字云”(附完整教程)
一年一度的高考大日子又到了,在这里,浩彬老撕先预祝各位考生都能取得满意的成绩。每年的高考都会产生很多的爆点,引起很多的话题,今年也不例外,而且再创新高,诞生了高考界的第一网红:正好,R的文字云包“wordcloud2”也发布了,于是浩彬老撕也弄了一个高考文字云。你说要图案选择?咱有!支持中文,那是必须的!多少代码?一行足矣!Excuse me?!
2016-10-11 15:17:58 3202
转载 R语言内存管理
R中的对象(比如矩阵)在内存中存于两种不同的地方:第一种是堆内存(heap),其基本单元是“Vcells”,每个大小为8字节,新来一个对象就会申请一块空间,把值全部存在这里,和C里面的堆内存很像;第二种是地址对(cons cells),主要用来存储地址信息,最小单元一般在32位系统中是28字节、64位系统中是56字节。 1、ls()来查看当前所有对象名,对于每一个对象,可以通过ob
2016-10-11 14:19:17 839
文本分类语料库
2016-10-25
Scala编程(完整中文版)
2016-09-06
redis设计与实现(第二版)
2016-09-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人