- 博客(6)
- 收藏
- 关注
原创 C语言实现字符串拼接和字符串拷贝
字符串拼接:#include#include#includechar *str_contact(const char *,const char *);char *str_contact(const char *str1,const char *str2){ char *result = (char*) malloc(strlen(str1) + strlen(str2) + 1
2017-01-21 22:24:20 6137
原创 Spark笔记(3)-Spark程序调优
对于一个Spark程序,采用不同的优化,运行效率差别很大,下面是对Spark程序调优进行总结:优化Spark运行环境1. 防止不必要的jar包上传于分发2. 提高数据本地性 解决方法:计算与存储同节点部署、增加executor数目、增加数据副本数3. 存储格式选择 选择列式存储:减少读IO量,占用存储空间少(压缩比高)优化RDD操作符的使用方法
2017-01-15 17:34:16 368
原创 Spark笔记(2)-Spark计算引擎剖析
上文简单对Spark进行了总结,本文旨在进一步对Spark计算引擎进行剖析。val textFile = sc.textFile(args(1))val result textFile .flatMap(line => line.split("\\s+")) .map(word => (word,1)) .reduceByKey(_+_)result.saveAsTextFile
2017-01-14 14:58:05 452
原创 浅谈Word2vec
前段时间做过一个NLP方面的比赛,以及最近的实习,都用到了Word2vec,下面就简单谈一下这个工具吧,更深的数学原理可以参考Mikolov的原始论文。Word2vec是Google于2013年开源的一个词向量工具,将原始文本转化成词向量的表达形式。其基本思想是:通过训练将每个词映射成K维的实数特征向量,这样一来,词与词之间的相似度就可以用余弦距离或者欧式距离来衡量了,相比传统的one-hot
2017-01-13 22:49:12 2172
原创 TF-IDF
TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency);字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降;TF-IDF原理:1.词频:在一份给定的文件里,某一个给定的词语在该文件中出现的次数
2017-01-07 15:36:59 628
原创 SMP CUP微博用户画像大赛解决方案
去年9月参加了SMP大会举办的SMP CUP微博用户画像大赛,排名第五,比赛链接如下:https://biendata.com/competition/1/赛题描述:参赛队伍利用给定的新浪微博数据(包括用户个人信息、用户微博文本以及用户粉丝列表,详见数据描述部分),进行微博用户画像,具体包括以下三个任务:任务1:推断用户的年龄(共3个标签:-1979/1980-1989/199
2017-01-07 15:32:54 8267 9
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人