自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Cache friendly code

缓存友好型代码,和减少磁盘IO类似,减少内存IO,使CPU尽量使用缓存中的数据。点击这里打开一篇讲Cache friendly code的文章

2015-10-29 17:21:25 1388

原创 【笔记】机器学习基础——国立台湾大学

机器学习的前提是有大量的数据历史资料机器学习的应用场景:人不方便将规则写下了;人对规则未知而让机器去寻找;大量的个性化服务机器学习的具体场景:自动驾驶;评价餐厅的卫生程度;预测房屋的节能度;推荐系统一个可能的机器学习的模型:(预测用户对电影的喜好)viewer*movie=predicted rating,目前机器知道predicted rating而且预测用户喜欢Formaliz

2015-10-19 10:14:17 1031

原创 hive安装过程

1.下载hive的bin文件2.解压到/usr/local/hadoop文件夹中3. vim /etc/profile 添加环境变量值  export HIVE_HOME=/usr/local/hadoop目录中  export PATH = $HIVE_HOME/bin:$PATH  source /etc/profile 使修改的环境变量立即生效4. bin/hadoo

2015-10-10 15:39:17 281

原创 一个小爬虫和正则表达式的例子,用于获取2015年迅雷校招的笔试名单

笔记:jsoup.jar包常用语制作网页爬虫,它的使用只需要导入jsoup.jar这一个包就行,它的使用参考点击打开链接。通常解析web也伴随着正则表达式的使用,正则表达式group的概念参考点击打开链接import java.io.IOException;import java.lang.reflect.Array;import java.util.ArrayList;impor

2015-10-10 14:16:17 860

原创 【笔记】关于构造一个有效的hash函数

如果采用:hashresult=(random1*key+random2)mod B的形式的话,B尽量是一个质数。因为如果B和大部分(random1*key+random2)都具有公因子,将导致hash不均匀。B为(random1*key+random2)的因子这种情况也需要考虑,但是使得B为质数减少了结果不随机的情况。将字符转换为数字:转为ASCII或Unicode码。如果B

2015-10-04 17:57:30 409

原创 布隆过滤

在《大数据:互联网大规模数据挖掘与分布式处理》中,作者将布隆过滤放在了“数据流挖掘”中,并以垃圾邮件过滤为例。而在《Hadoop实战》中,作者在MR程序性能调优中进行介绍。目的是在作业执行前过滤掉无用、噪声、异常数据。

2015-10-02 15:57:58 434

原创 Hadoop笔记--Reduce方法中获取迭代器的值

由于迭代器只能对每一个元素分别进行处理,但是某些时候,却需要获取所有元素后再进行处理。所以打算把迭代器中的所有值存储在数组中,然后再进行相应的运算。下边是两种将迭代器内的数值存储在array中的过程1.2.两种做法均不正确。如果安装上边的代码执行。结果array中所有元素的值将等于迭代器的最后一个元素的值。这是由于iterate.next()被单独分到了一个内存空间。而

2015-10-02 14:00:46 1472

Postman三合一,备用

Postman三合一,备用

2023-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除