大数据
文章平均质量分 50
shengyao15
这个作者很懒,什么都没留下…
展开
-
hbase 与传统数据库的区别
hbase最大的不同1, 没有索引,没有查询语句,所有的访问都是通过id的id中会有很多查询逻辑,需要重点考虑2, 用名值对来存放数据(行健,列族,列修饰符,时间,值)没有列的概念,随性的定义列名,列名甚至能作为数据来存储3, 反规范化,用冗余的数据来避免join查找,增加读的性能, 但写入时需要更新多个副本传统数据的是规范化的,方便写,重复的信息会放在独立的表中。...原创 2014-05-25 17:04:03 · 1911 阅读 · 0 评论 -
yarn
Hadoop1 最大的问题是JobTracker包含了资源管理和作业控制的功能。这就导致资源和MapReduce框架的紧耦合。Yarn将其分离成ResourceManager【RM】和ApplicationMaster【AM】。RM提供全局性的资源调配, 每个AM管理自己的应用。仍然还是Master/Slave结构。Slave是NodeManager【NM】。 可以支持其他的计...原创 2014-07-25 16:58:49 · 75 阅读 · 0 评论 -
hbase hive 总结
Hive和Hbase整合真正的无缝集成, hive什么都不需要配置,只要运行就能和hbase集成了。hive只是用来增强hbase的查询功能的, 可以支持group by等复杂的sql语句。无法用来插入修改数据。 而且速度慢,不像hbase是实时操作的。hive shell 开启后无法开启hive server 两者是互斥的。hbase 和redis比较hb...原创 2014-07-25 10:51:16 · 85 阅读 · 0 评论 -
memcache
memcache分布式内存服务器1> 可以缓存db中的数据,resource静态文件,缓存首页2> 缓存session和ehcache区别ehcache只是管理一块内存, 依赖于jvm项目进程的。 而memcache是内存服务器,在不同机器上的。Nginx+Tomcat+Memcached共享session集群配备基于weblogic的,没有看到什么资料...原创 2014-07-21 08:29:46 · 69 阅读 · 0 评论 -
redis 学习
redis是一个带有很多数据类型的key-value数据库并不像mongodb一样适合用对象的方式来使用, 更加倾向于业务逻辑简单性能要求高的场景。和hbase很相似 都是想查询内容写在key中。区别是redis的数据类型更丰富。set类型 无序集合好友推荐 差集概念sorted set (zset) 有序集合 在set基础上增加了顺序属性排行榜l...原创 2014-07-20 16:30:20 · 55 阅读 · 0 评论 -
机器学习
机器学习中比较实用的是推荐引擎和分类算法分类算法-k近邻 能有效的提高图片识别的成功率。还有可以作为垃圾邮件的过滤器。----------------[b]推荐引擎[/b][b]基于用户[/b] GenericUserBasedRecommender相似度+ 邻域相似度 UserSimilarity 实现的算法有 PearsonCorrelati...原创 2014-07-11 21:44:24 · 69 阅读 · 0 评论 -
mahout 学习
---------------------运行hadoop jar mahout-examples-0.9-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob --input /input2/intro.txt --output /out3 --usersFile /users.txt --booleanData --...原创 2014-07-09 21:36:58 · 87 阅读 · 0 评论 -
VMware中bridge方式网络不能上网的解决办法
1, 参考 http://blog.csdn.net/bananav/article/details/5573798打开Virtual Network Editor,VMnet(0)(Bridged)方式是Automatic,Bridged to一个实际的物理网卡就可以。2, 虚拟机中需要设置代理 (或是浏览器中)nano ~/.bashrcexport http_prox...原创 2014-06-11 14:17:31 · 409 阅读 · 0 评论 -
zookeeper 学习
zookeeper 是用来管理HMaster和RegionServer的, 和datanode复制没有关系---------------核心是watch, 用来监听其他服务器中节点的变化情况节点znode, 可以分为永久节点和临时节点永久节点存放需要同步管理的数据临时节点作为心跳测试,和session的生命周期一致, 所有节点都能知道其他节点的状态。还用来作为选...原创 2014-06-08 19:46:00 · 66 阅读 · 0 评论 -
hadoop shuffle 学习
hadoop的核心就是shuffle,最好的学习方式就是看源代码但是编译hadoop的源代码成本太大,而且由于maven中的有些资源被天草屏蔽的关系,不推荐。建立一个项目,引用最简单的wordcount, 将jar包attach到源代码上,再用远程调试就ok了。打开mapreduce的调试端口 mapred.child.java.opts -Xmx200m -X...原创 2014-06-04 16:37:25 · 77 阅读 · 0 评论 -
hadoop 学习
pig 分析带逻辑的文本文件, 类似于sql不用MR直接去分割字符串什么的。A = LOAD 'student' USING PigStorage() AS (name:chararray, age:int, gpa:float); -- loading dataB = FOREACH A GENERATE name; -- transforming dataDUMP...原创 2014-06-04 16:31:32 · 93 阅读 · 0 评论 -
HBase 相关
水平扩展测试用3个节点和1个节点做比较,3反而小于1不过由于数据量小,虚拟机无法说明问题hbase org.apache.hadoop.hbase.PerformanceEvaluation --nomapred --rows=10000 sequentialWrite 1hbase org.apache.hadoop.hbase.PerformanceEvaluation --n...原创 2014-06-04 16:29:22 · 86 阅读 · 0 评论 -
MD5散列算法
MD5生成16位的字节,一个字节就是8个bit 8个二进制字符 2个16进制字符所以用16进制来查看MD5的结果是32个字符[code="java"]byte[] b = Md5Utils.md5sum("123"); System.out.println(b.length); String resultString = byteArrayToHexSt...原创 2014-05-27 11:13:27 · 163 阅读 · 0 评论 -
storm 学习
一个topology拓扑图包含多个spout和多个boltspout用来读取数据 bolt用来处理数据----------------------------------------一个实际的例子 产品统计页面,用来记录用户访问了哪些类型的产品 (可以作为一个独立的模块)spout 读取数据用户点击了某次操作后会往redis的list中push一个数据,spout...原创 2014-08-06 17:06:21 · 81 阅读 · 0 评论