- 博客(7)
- 收藏
- 关注
原创 Cache friendly code
缓存友好型代码,和减少磁盘IO类似,减少内存IO,使CPU尽量使用缓存中的数据。点击这里打开一篇讲Cache friendly code的文章
2015-10-29 17:21:25 1388
原创 【笔记】机器学习基础——国立台湾大学
机器学习的前提是有大量的数据历史资料机器学习的应用场景:人不方便将规则写下了;人对规则未知而让机器去寻找;大量的个性化服务机器学习的具体场景:自动驾驶;评价餐厅的卫生程度;预测房屋的节能度;推荐系统一个可能的机器学习的模型:(预测用户对电影的喜好)viewer*movie=predicted rating,目前机器知道predicted rating而且预测用户喜欢Formaliz
2015-10-19 10:14:17 1031
原创 hive安装过程
1.下载hive的bin文件2.解压到/usr/local/hadoop文件夹中3. vim /etc/profile 添加环境变量值 export HIVE_HOME=/usr/local/hadoop目录中 export PATH = $HIVE_HOME/bin:$PATH source /etc/profile 使修改的环境变量立即生效4. bin/hadoo
2015-10-10 15:39:17 281
原创 一个小爬虫和正则表达式的例子,用于获取2015年迅雷校招的笔试名单
笔记:jsoup.jar包常用语制作网页爬虫,它的使用只需要导入jsoup.jar这一个包就行,它的使用参考点击打开链接。通常解析web也伴随着正则表达式的使用,正则表达式group的概念参考点击打开链接import java.io.IOException;import java.lang.reflect.Array;import java.util.ArrayList;impor
2015-10-10 14:16:17 860
原创 【笔记】关于构造一个有效的hash函数
如果采用:hashresult=(random1*key+random2)mod B的形式的话,B尽量是一个质数。因为如果B和大部分(random1*key+random2)都具有公因子,将导致hash不均匀。B为(random1*key+random2)的因子这种情况也需要考虑,但是使得B为质数减少了结果不随机的情况。将字符转换为数字:转为ASCII或Unicode码。如果B
2015-10-04 17:57:30 409
原创 布隆过滤
在《大数据:互联网大规模数据挖掘与分布式处理》中,作者将布隆过滤放在了“数据流挖掘”中,并以垃圾邮件过滤为例。而在《Hadoop实战》中,作者在MR程序性能调优中进行介绍。目的是在作业执行前过滤掉无用、噪声、异常数据。
2015-10-02 15:57:58 434
原创 Hadoop笔记--Reduce方法中获取迭代器的值
由于迭代器只能对每一个元素分别进行处理,但是某些时候,却需要获取所有元素后再进行处理。所以打算把迭代器中的所有值存储在数组中,然后再进行相应的运算。下边是两种将迭代器内的数值存储在array中的过程1.2.两种做法均不正确。如果安装上边的代码执行。结果array中所有元素的值将等于迭代器的最后一个元素的值。这是由于iterate.next()被单独分到了一个内存空间。而
2015-10-02 14:00:46 1472
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人