关闭

hive 底层模块实现-join

准备数据语句SELECT a.uid,a.name,b.age FROM logs a JOIN users b ON (a.uid=b.uid);我们希望的结果是把users表join进来获取age字段。hive> SELECT * FROM logs; OK a 苹果 5 a 橙子 3 b 烧鸡 1hive> SELECT * FROM users; OK a 23 b...
阅读(127) 评论(0)

hive 底层模块实现-group by

准备数据SELECT uid, SUM(COUNT) FROM logs GROUP BY uid; hive> SELECT * FROM logs; a 苹果 5 a 橙子 3 a 苹果 2 b 烧鸡 1hive> SELECT uid, SUM(COUNT) FROM logs GROUP BY uid; a 10 b 1计算过程 默认设置了hive....
阅读(186) 评论(0)

hive 底层模块实现-distinct

准备数据语句SELECT COUNT, COUNT(DISTINCT uid) FROM logs GROUP BY COUNT; hive> SELECT * FROM logs; OK a 苹果 3 a 橙子 3 a 烧鸡 1 b 烧鸡 3hive> SELECT COUNT, COUNT(DISTINCT uid) FROM logs GROUP BY COUNT;根据...
阅读(247) 评论(0)

用命令将本地项目上传到git 远程仓库

1、(先进入项目文件夹)通过命令 git init 把这个目录变成git可以管理的仓库git init2、把文件添加到版本库中,使用命令 git add .添加到暂存区里面去,不要忘记后面的小数点“.”,意为添加文件夹下的所有文件git add .3、用命令 git commit告诉Git,把文件提交到仓库。引号内为提交说明git commit -m 'first commit'4、关联到远程库gi...
阅读(198) 评论(0)

用pycharm + python写spark(spark-2.0.1-bin-hadoop2.6)

一、将pyspark放入: 该目录位置(我的是mac): /Library/Python/2.7/site-packages二、env配置: 步骤1: 步骤2: 步骤3: SPARK_CLASSPATH /Users/Chaves/workspace/spark/hbase-0.98.3/lib/:/Users/Chaves/workspace/spark/spark-2....
阅读(632) 评论(0)

淺談網路世界的Power Law現象

〈一〉── 什麼是Power Law Posted by Mr. Friday 這次系列的主題是網路世界裡的Power Law。這個主題其實很不好寫,因為這個數學模型到處在生活中都看得到,而且在不同的場合、不同的環境下,人們往往對這個現象有著不同的意義詮釋。因此這個題目可以說是包羅萬象,即使今天這個主題只把範圍限制在網路世界裡,能夠寫的內容還是相當的多。 何謂Powe...
阅读(503) 评论(0)

常用推荐算法性能比较

一,常用推荐系统算法总结 1、Itemcf (基于商品的协同过滤) 这个算法是cf中的一种,也是当今很多大型网站都在采用的核心算法之一。对于商城网站(以Amazon为代表,当然也包括京东那种具有搞笑特色的推荐系统在内),影视类推荐,图书类推荐,音乐类推荐系统来说,item的增长速度远不如user的增长速度,而且item之间的相似性远不如user之间的相似性那么敏感,所以可以在离线系统中将ite...
阅读(1708) 评论(0)

探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探

随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用恰当的关键词描述自己的需求,二是基于关键词的信息检索在很多情况下是不够的。而推荐引擎的出现,使用户获取信息的方式从简单的目标明确的数据的搜索转换到更高级更符合人们使用习惯的上下文信息更丰富的信息发现。...
阅读(248) 评论(0)

常用的推荐算法

原文博主:http://liyonghui160com.iteye.com 在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。 一、基于内容推荐        基 于内容的...
阅读(209) 评论(0)

集体智慧和协同过滤

集体智慧和协同过滤 什么是集体智慧 集体智慧 (Collective Intelligence) 并不是 Web2.0 时代特有的,只是在 Web2.0 时代,大家在 Web 应用中利用集体智慧构建更加有趣的应用或者得到更好的用户体验。集体智慧是指在大量的人群的行为和数据中收集答案,帮助你对整个人群得到统计意义上的结论,这些结论是我们在单个个体上无法得到的,它往往是某种趋势或者人群中共性的部分...
阅读(490) 评论(0)

R 中的 系统聚类

1、关键点 #聚类分析是一类将数据所研究对象进行分类的统计方法,这一类方法的共同特点是: #事先不知道类别的个数与结构 据以进行分类的数据是对象之间的相似性 或差异性数据 #将这些相似(相异)性数据看成是对象之间的距离远近的一种度量 将距离近的对象 #归入一类 不同类之间的对象距离较远 #聚类分析根据分类对象不同分为Q型聚类分析(指的是对样本进行聚类) 和R型聚类分析(指的是对变量进...
阅读(731) 评论(0)

pycharm 设置

今天尝试使用了下编译工具pycharm,感觉还不错,最后再将今天遇到的问题都记录在此,防止后面忘记。 1、pycharm连接SVN 1)vcs - checkout - subversion 设置 2)在这里填上同步地址   3)上步,设置完成后,需要将settings中subversion 三个地方的对号去掉,这样才可以check in。   2,pycharm...
阅读(1984) 评论(0)

python max()函数的应用

1.比较简单的应用 max(1,2,4,5,6) max('a','b','c','e') 2.可以对列表和元组使用 max(['a','c']) max((1,'a')) 3.可以使用自定义函数 max('12', '21', key=lambda x: x[1]) def bjfunction(x): return x[1] max('ah', 'bf', key=b...
阅读(528) 评论(0)

【转载】python 中的 and、or、and-or

一、and:在Python 中,and 和 or 执行布尔逻辑演算,如你所期待的一样,但是它们并不返回布尔值;而是,返回它们实际进行比较的值之一。 >>> ‘a’ and ‘b’ ‘b’ >>> ” and ‘b’ ” >>> ‘a’ and ‘b’ and ‘c’ ‘c’ 在布尔上下文中从左到右演算表达式的值,如果布尔上下文中的所有值都为真,那么 and 返回最...
阅读(222) 评论(0)

文本分词方法

废话不多说,我就直接上干货吧,从过去到现在所知道的分词方法有以下几种: 1、mmseg4j2、词频分组(有序文本足够)3、jieba分词下面细说一下几种分词方法, 第一种,mmseg4j,我使用这种方法是以R来分词的,所以就用R来说这个包,R中这个包的名字叫“rmmseg4j”,详情见该帖:[程序分享]R与中文分词,R中的mmseg包,使用方法如下R code,这种方法还有一个java版本的分词...
阅读(501) 评论(0)
16条 共2页1 2 下一页 尾页
    个人资料
    • 访问:9029次
    • 积分:171
    • 等级:
    • 排名:千里之外
    • 原创:5篇
    • 转载:11篇
    • 译文:0篇
    • 评论:0条