2015年10月_fujiaxiaoshao

原创 Cache friendly code

缓存友好型代码，和减少磁盘IO类似，减少内存IO，使CPU尽量使用缓存中的数据。点击这里打开一篇讲Cache friendly code的文章

2015-10-29 17:21:25 1388

原创【笔记】机器学习基础——国立台湾大学

机器学习的前提是有大量的数据历史资料机器学习的应用场景：人不方便将规则写下了；人对规则未知而让机器去寻找；大量的个性化服务机器学习的具体场景：自动驾驶；评价餐厅的卫生程度；预测房屋的节能度；推荐系统一个可能的机器学习的模型：（预测用户对电影的喜好）viewer*movie=predicted rating,目前机器知道predicted rating而且预测用户喜欢Formaliz

2015-10-19 10:14:17 1031

原创 hive安装过程

1.下载hive的bin文件2.解压到/usr/local/hadoop文件夹中3. vim /etc/profile 添加环境变量值 export HIVE_HOME=/usr/local/hadoop目录中 export PATH = $HIVE_HOME/bin:$PATH source /etc/profile 使修改的环境变量立即生效4. bin/hadoo

2015-10-10 15:39:17 281

原创一个小爬虫和正则表达式的例子，用于获取2015年迅雷校招的笔试名单

笔记：jsoup.jar包常用语制作网页爬虫，它的使用只需要导入jsoup.jar这一个包就行，它的使用参考点击打开链接。通常解析web也伴随着正则表达式的使用，正则表达式group的概念参考点击打开链接import java.io.IOException;import java.lang.reflect.Array;import java.util.ArrayList;impor

2015-10-10 14:16:17 860

原创【笔记】关于构造一个有效的hash函数

如果采用：hashresult=(random1*key+random2)mod B的形式的话，B尽量是一个质数。因为如果B和大部分(random1*key+random2)都具有公因子，将导致hash不均匀。B为(random1*key+random2)的因子这种情况也需要考虑，但是使得B为质数减少了结果不随机的情况。将字符转换为数字：转为ASCII或Unicode码。如果B

2015-10-04 17:57:30 409

原创布隆过滤

在《大数据：互联网大规模数据挖掘与分布式处理》中，作者将布隆过滤放在了“数据流挖掘”中，并以垃圾邮件过滤为例。而在《Hadoop实战》中，作者在MR程序性能调优中进行介绍。目的是在作业执行前过滤掉无用、噪声、异常数据。

2015-10-02 15:57:58 434

原创 Hadoop笔记--Reduce方法中获取迭代器的值

由于迭代器只能对每一个元素分别进行处理，但是某些时候，却需要获取所有元素后再进行处理。所以打算把迭代器中的所有值存储在数组中，然后再进行相应的运算。下边是两种将迭代器内的数值存储在array中的过程1.2.两种做法均不正确。如果安装上边的代码执行。结果array中所有元素的值将等于迭代器的最后一个元素的值。这是由于iterate.next()被单独分到了一个内存空间。而

2015-10-02 14:00:46 1472

fujiaxiaoshao的博客