自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SCAU_Jimmy的专栏

热爱机器学习、数据挖掘

  • 博客(6)
  • 收藏
  • 关注

原创 C语言实现字符串拼接和字符串拷贝

字符串拼接:#include#include#includechar *str_contact(const char *,const char *);char *str_contact(const char *str1,const char *str2){ char *result = (char*) malloc(strlen(str1) + strlen(str2) + 1

2017-01-21 22:24:20 6135

原创 Spark笔记(3)-Spark程序调优

对于一个Spark程序,采用不同的优化,运行效率差别很大,下面是对Spark程序调优进行总结:优化Spark运行环境1. 防止不必要的jar包上传于分发2. 提高数据本地性   解决方法:计算与存储同节点部署、增加executor数目、增加数据副本数3. 存储格式选择    选择列式存储:减少读IO量,占用存储空间少(压缩比高)优化RDD操作符的使用方法

2017-01-15 17:34:16 368

原创 Spark笔记(2)-Spark计算引擎剖析

上文简单对Spark进行了总结,本文旨在进一步对Spark计算引擎进行剖析。val textFile = sc.textFile(args(1))val result textFile .flatMap(line => line.split("\\s+")) .map(word => (word,1)) .reduceByKey(_+_)result.saveAsTextFile

2017-01-14 14:58:05 451

原创 浅谈Word2vec

前段时间做过一个NLP方面的比赛,以及最近的实习,都用到了Word2vec,下面就简单谈一下这个工具吧,更深的数学原理可以参考Mikolov的原始论文。Word2vec是Google于2013年开源的一个词向量工具,将原始文本转化成词向量的表达形式。其基本思想是:通过训练将每个词映射成K维的实数特征向量,这样一来,词与词之间的相似度就可以用余弦距离或者欧式距离来衡量了,相比传统的one-hot

2017-01-13 22:49:12 2169

原创 TF-IDF

TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency);字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降;TF-IDF原理:1.词频:在一份给定的文件里,某一个给定的词语在该文件中出现的次数

2017-01-07 15:36:59 628

原创 SMP CUP微博用户画像大赛解决方案

去年9月参加了SMP大会举办的SMP CUP微博用户画像大赛,排名第五,比赛链接如下:https://biendata.com/competition/1/赛题描述:参赛队伍利用给定的新浪微博数据(包括用户个人信息、用户微博文本以及用户粉丝列表,详见数据描述部分),进行微博用户画像,具体包括以下三个任务:任务1:推断用户的年龄(共3个标签:-1979/1980-1989/199

2017-01-07 15:32:54 8267 9

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除