2017年01月_SCAU_Jimmy

原创 C语言实现字符串拼接和字符串拷贝

字符串拼接：#include#include#includechar *str_contact(const char *,const char *);char *str_contact(const char *str1,const char *str2){ char *result = (char*) malloc(strlen(str1) + strlen(str2) + 1

2017-01-21 22:24:20 6135

原创 Spark笔记(3)-Spark程序调优

对于一个Spark程序，采用不同的优化，运行效率差别很大，下面是对Spark程序调优进行总结：优化Spark运行环境1. 防止不必要的jar包上传于分发2. 提高数据本地性解决方法：计算与存储同节点部署、增加executor数目、增加数据副本数3. 存储格式选择选择列式存储：减少读IO量，占用存储空间少(压缩比高)优化RDD操作符的使用方法

2017-01-15 17:34:16 368

原创 Spark笔记(2)-Spark计算引擎剖析

上文简单对Spark进行了总结，本文旨在进一步对Spark计算引擎进行剖析。val textFile = sc.textFile(args(1))val result textFile .flatMap(line => line.split("\\s+")) .map(word => (word,1)) .reduceByKey(_+_)result.saveAsTextFile

2017-01-14 14:58:05 451

原创浅谈Word2vec

前段时间做过一个NLP方面的比赛，以及最近的实习，都用到了Word2vec，下面就简单谈一下这个工具吧，更深的数学原理可以参考Mikolov的原始论文。Word2vec是Google于2013年开源的一个词向量工具，将原始文本转化成词向量的表达形式。其基本思想是：通过训练将每个词映射成K维的实数特征向量，这样一来，词与词之间的相似度就可以用余弦距离或者欧式距离来衡量了，相比传统的one-hot

2017-01-13 22:49:12 2169

原创 TF-IDF

TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，实际上是：TF * IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)；字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降；TF-IDF原理：1.词频：在一份给定的文件里，某一个给定的词语在该文件中出现的次数

2017-01-07 15:36:59 628

原创 SMP CUP微博用户画像大赛解决方案

去年9月参加了SMP大会举办的SMP CUP微博用户画像大赛，排名第五，比赛链接如下：https://biendata.com/competition/1/赛题描述：参赛队伍利用给定的新浪微博数据（包括用户个人信息、用户微博文本以及用户粉丝列表，详见数据描述部分），进行微博用户画像，具体包括以下三个任务：任务1：推断用户的年龄（共3个标签：-1979/1980-1989/199

2017-01-07 15:32:54 8267 9

SCAU_Jimmy的专栏

原创 C语言实现字符串拼接和字符串拷贝

原创 Spark笔记(3)-Spark程序调优

原创 Spark笔记(2)-Spark计算引擎剖析

原创浅谈Word2vec

原创 TF-IDF

原创 SMP CUP微博用户画像大赛解决方案

空空如也

空空如也

原创 C语言实现字符串拼接和字符串拷贝

原创 Spark笔记(3)-Spark程序调优

原创 Spark笔记(2)-Spark计算引擎剖析

原创 浅谈Word2vec

原创 TF-IDF

原创 SMP CUP微博用户画像大赛解决方案

空空如也

空空如也

原创浅谈Word2vec