分享汇总
文章平均质量分 63
dataee
解决方案咨询
大数据处理
系统架构
展开
-
"宜信大数据金融实践分享"汇总
此次分享doc来自于互联网,分享会议是2014bdtc首先看架构图: 数据来源图:涉及点:1.构建实体关系知识图谱2.基于flume做数据传输3.基于Elastic Search 提供检索服务4.基于hadoop的mr做分析5.利用了xpath做解析(其实csspath会更好)6. 交叉验证 详情参见附件 ...2015-06-10 16:26:26 · 202 阅读 · 0 评论 -
"大数据产品中的异构数据源整合"分享总结
概述:此分享是关于大数据产品中的异构数据源整合的汇总,作者来自于淘宝 挑战:计算• 离线计算:灵活性低,但性能可控,数据产品的主流模式• 实时计算:灵活性高,技术挑战较大• 流式计算:数据时效性高,技术挑战较大存储与查询• 如何让查询更快• 大数据的存储成本 架构图: 技术点:用中间层隔离前后端,解耦合;内存sql执行;...2013-08-31 12:09:42 · 2062 阅读 · 0 评论 -
"高性能Web服务器Nginx及相关新技术的应用实践"分享总结
概述:此分享是关于高性能Web服务器Nginx及相关新技术的应用实践的汇总,作者来自于北京金山软件 Nginx优点:高并发连接(官方测试能够支撑5万并发);内存消耗少(3万并发10个进程150M内存);配置文件非常简单;成本低廉(免费开源);支持Rewrite重写规则;支持Rewrite重写规则(忽略Proxy server宕机);节省带宽(支持 GZIP...2013-07-30 20:34:42 · 115 阅读 · 0 评论 -
"证券交易的低延迟挑战"分享总结
概述:此分享是关于证券交易的低延迟挑战的汇总 汇总点:群狼计划:PC服务器、开源平台;猎豹计划:持续提速、消息接口;狡兔计划:两地三中心、主机托管对核心组件冗余复制保证;两类基于消息传递的复制方法:Paxos算法和虚同步;订单定序器为订单消息选择一个全局统一的顺序,各结点按此顺序接收订单;基于Collapsed Multi-Paxos方案进行复制;可靠...2013-07-29 17:24:06 · 595 阅读 · 1 评论 -
"打造支持上千万http长连接的应用"分享总结
概述:此分享是关于打造支持上千万http长连接的应用的汇总 汇总点:Http长连接三种实现:Comet Long Pooling,Comet Streaming和Websocket;Haproxy为OSI的7层进行负载,多种负载策略;Haproxy支持Session sticky,虚拟主机,一致性hash,Connection keep alive;多域名结构基于co...2013-07-26 17:29:45 · 202 阅读 · 0 评论 -
"支持高性能模糊检索的内存数据库EMS"分享总结
概述:此分享是关于支持高性能模糊检索的内存数据库EMS的汇总 架构图: 汇总点: BROKER负责:高版本MySQL向低版本复制跨数据库系统的复制支持多主库向单台Slave的复制支持数据触发,用户可对数据增量进行预处理,代替数据库触发器 STORAGE负责:DDL命令服务DML更新服务检索服务监控服务不支持联表查询和事务...2013-07-26 17:04:22 · 229 阅读 · 0 评论 -
"海量日志分析系统实践"分享总结
概述:此分享是关于海量日志分析系统实践的汇总 汇总点:基于MySql;分析指标有,Hits、带宽、UIP(独立用户IP)、下载速度、下载时长、响应时间、受访URL、受访域名、来路URL、来路域名、全国用户分布统计、运营商分布统计、受访文件大小、文件类型、Squid命中率、请求响应类型、异常用户统计;海量数据,写多读少;节点包括:A(Agent) 、B(Bee) 、D...2013-07-24 22:23:19 · 169 阅读 · 0 评论 -
"Hadoop在网盘和在线备份的应用与挑战"分享总结
概述:此分享是关于Hadoop在网盘和在线备份的应用与挑战的汇总 汇总点:前端应用负载均衡LVS/Ngnix/Jetty;文件存储基于HDFS和MongoDB;Hbase合理设计RowKey 和 Pre-Sharding;Hbase充分利用Filter功能;大文件基于HDFS,小文件基于MongoDB;Hadoop的NameNode采取人工切换模式; ...2013-07-18 11:12:23 · 119 阅读 · 0 评论 -
"天猫交易流控降级"分享总结
概述:此分享是关于天猫交易流控降级的汇总 汇总点:保护自己,保护同伴,服务可用;减少系统内的排队;尽可能早地拒绝;应用分业务做服务拒绝;业务分功能点做服务拒绝;对业务和功能点进行级别排序;靠监控指标进行降级处理;知己知彼,把握全局;简单架构,权衡利弊;关注细节,追本溯源;没有银弹,因势而变; 更多详情参见附件...2013-07-12 17:26:49 · 271 阅读 · 0 评论 -
"用开源软件构建App的高效服务端"分享总结
概述:此分享是关于用开源软件构建App的高效服务端的汇总 汇总点:MySql完全使用MyIsam 引擎;数据库优化索引,大字段分离,减少查询记录数量,减少链接表的数量,使用CACHE,读写分离和分表;采用调优工具:MySQL Tuner ,mysqloa和tuning-primer.sh;三大通讯开源:Ace,Boost和Poco,其中Ace最稳定;HAproxy...2013-07-12 16:49:23 · 117 阅读 · 0 评论 -
Node.js社区:一个人称代词引发的论战(转)
说在转发之前虽然是转的但是还是希望能进新闻频道,这篇新闻既体现了智慧又体现了责任和热性,也希望审核员能通过。本文转载自: http://www.infoq.com/cn/news/2013/12/the-power-of-a-pronoun 作为一个开源项目,Node.js以及相关项目都是由社区和志愿者共同维护的,任何的改动都会引发大家的讨论,尤其是现在Node....2013-12-04 21:21:04 · 79 阅读 · 0 评论 -
"实时流计算应用开发框架-天罡"分享总结
概述:此分享是关于实时流计算应用开发框架-天罡的汇总,作者来自于阿里系 业内流计算框架对比图:功能模块图:功能模块关系图: 技术点:天罡需要满足可配置方式、 类SQL工具、任务管理和运维;天罡满足简单计算、多流join、中间状态持久化;天罡系统满足消息流处理基于hbase,redis等做持久化,基于storm;天罡基于zk做服务协调,同时支持规则配置,...2013-09-01 11:32:58 · 195 阅读 · 0 评论 -
"鹰眼下的淘宝-分布式调用跟踪系统介绍"分享总结
概述:此分享是关于鹰眼下的淘宝-分布式调用跟踪系统介绍的汇总,作者来自于阿里系 架构图: 分享点:分布式系统日趋复杂包括但不限于服务框架、消息中间件、分布式缓存、分布式存储等;鹰眼基于日志的分布式调用跟踪系统脱胎于 Google Dapper 论文;基于调用链,每次请求都生成一个全局唯一的ID(TraceId),通过它将把“孤立的”日志串在一起,重组成调用链;...2013-09-03 10:27:31 · 595 阅读 · 0 评论 -
4399曹政:中国互联网
本文作者:曹政(4399架构师);文章来自于曹政百度空间caoz的和谐blog.前言可能有人会说,这么大的口气,标题党。随便吧,我觉得,如果我不来写,也没几个人会写;懂的人本来就不多,大部分又都藏着掖着,那么愿意出来分享的,也就寥寥无几了,总结文字的能力也未必比我好。当然,肯定有些人会说,你这就是扯淡,不懂装懂,云云,随便吧。1、中国互联网的构成如之前冯大辉总结,中国互联...原创 2013-10-29 15:58:21 · 1146 阅读 · 0 评论 -
"Hadoop集群监控与Hive高可用"分享总结
概述:此分享是关于Hadoop集群监控与Hive高可用的分享汇总,作者来自暴风影音 汇总点:Hadoop监控基于Cacti主要包括:IO,CPU,内存,IO等待缺点是模板太少Hadoop监控基于Ganglia包括负载、带宽等缺点是配置复杂 Hive的高可用可以基于HAProxy和多个Hive Thrift ServerHAProxy解决优化了TCP超时、Hive健康检...2013-09-24 11:16:39 · 402 阅读 · 0 评论 -
"一种新的基于相似度计算的本体映射算法"分享
概述:此分享比较水,不过稍有参考价值 汇总点:1.基于属性的相似度计算的基本依据是,如果两个概念具有完全相同的属性,则认为两个概念可能是相同的,根据属性计算相似度的算法可以归结为计算两个概念的属性集合的相似程度,应该不仅与两个概念具有的相似属性有关,而且应该与属性对概念的影响程度及属性集合中的元素个数有关。2.依据J(A,B)来计算,加入了层次概念,so层次不同权重不同更...2014-03-04 15:00:47 · 317 阅读 · 0 评论 -
"基于本体实现网页规则分类的方法"分享
概述:此分享是基于本体实现网页规则分类的方法介绍 汇总点:1.支持向量机( SVM) 、Rocchio算法、K近邻法( KNN)等这些分类方法需要根据训练语料得到各类别的模板,进而根据模板进行分类.2.本体是一个实体,是把现实世界中的某个领域抽象为一组概念和概念之间的关系3.html中的标签<title> <meta><h1><a...2014-03-03 16:32:18 · 149 阅读 · 0 评论 -
"推荐系统的工程挑战"分享
概述:此分享是百度推荐引擎相关介绍 汇总点:1.搜索是主动查找,推荐是被动推送2.数据规模遭遇时效性3.实时计算系统(包括业务计算的横向扩展,百度的流计算系统和实时索引系统)4.推荐系统进化为推荐引擎从而形成平台5.推荐引擎应该有使用过程优化和用户兴趣发现的基础功能6.使用过程优化就是减少用户query的此时,加快发现认知的能力,用户兴趣发现就是类协同7....2014-02-27 15:03:52 · 109 阅读 · 0 评论 -
“基于用户兴趣分析的网页生命周期建模”分享
概述:此分享是搜狗实验室跟清华大学合作项目,目的是基于用户访问数据 汇总点:1.提出网页生命周期概念2.网页发布日,激活日,休眠日,死亡日3.基于用户访问曲线网页可以分为时效性网页(新闻)和无时效性网页(百科)4.基于用户访问曲线进行网页分类,基于用户访问曲线模型预测新网页用户访问行为 更多参见附件...2014-02-27 13:56:09 · 228 阅读 · 0 评论 -
“基于大规模日志分析的网络搜索引擎用户行为研究”分享
概述:此分享是搜狗实验室跟清华大学合作项目,目的是基于query 发现有价值的东西 汇总点:1.用户只点击了top10数据。 ->用户只关系第一页2.一次session内用户搜索的次数不多。->证明极少次搜索之后要不找到了结果,要不放弃了搜索3.用户群体不同对同一关键词的点击不同。->用户行为分析很重要,针对用户群体做搜索排名优化也很重要 后续...2014-02-26 15:28:56 · 205 阅读 · 0 评论 -
“基于验证码破解的 HTTP 攻击原理与防范”分享
概述:这个paper真心比较水,不过还是有点价值 汇总点:1.http防攻击验证码方式有4种:文本验证码,手机验证码,邮件验证码和图片验证码;2.文本低级,通过http即可解析出来,手机和邮件很容易被dos攻击3.图片验证码如果设置比较简单的话那么很容易基于抽取模板从而破解 结论:1.设置复杂易变的验证码 微创新:1.设置基于变量的验证码,可以防止...2014-02-26 15:03:03 · 204 阅读 · 0 评论 -
"Hadoop在ebay中的使用历程"分享总结
概述:此分享是关于Hadoop在ebay中的使用历程的汇总。作者来自ebay 分享点:数据包括query log、sellers、buyers、clicks、items/products、feedbacks、Performance、Images、User History、Crawled Data;数据就是机会;在ebay解决了单节点问题、更好的资源管理、调度以及虚拟集群管...2013-09-05 15:07:42 · 254 阅读 · 0 评论 -
"Twitter突发新闻事件监测跟踪"分享总结
概述:此分享是关于Twitter突发新闻事件监测跟踪的汇总,目的是基于微博挖掘突发新闻。论文来自IEEE 分享点:突发事件监测中涉及如下特征:特定用户、内嵌链接、转发、特定使用词;基于文本的分析中我们发现情感词、情感符合、wwh等对突发新闻的贡献巨大;整个监测过程包括事件发现和事件开发两大部分;事件发现中主要包括如下阶段:抽样、检索和分组(基于tf-idf得分的文本相...2013-09-04 11:48:27 · 481 阅读 · 0 评论 -
"SAE 数据存储的演化"分享总结
概述:此分享是关于SAE 数据存储的演化的汇总 汇总点:基于Memcache集群;基于Mysql集群;KVDB的集群基于M/S模式; 更多详情参见附件2013-07-10 16:05:19 · 103 阅读 · 0 评论 -
"淘宝网HDFS元数据的独立服务和独立持久化存储"分享总结
概述:此分享是关于淘宝网HDFS元数据的独立服务和独立持久化存储的汇总 汇总点:Namenode内存中的关键数据结构部分或全部挪到第三方,并持久化保存;引入BlockChecker,检测Block副本数是否满足期望;Datanode的改进包括:实现Namenode选择策略;Client的改进包括:重连机制和选择NN节点机制; 选择流程包括:流程一:DN启动...2013-07-09 10:38:32 · 175 阅读 · 0 评论 -
"360 HDFS下载平台介绍"分享总结
概述:此分享是关于360 HDFS下载平台介绍的汇总 汇总点:增加下载服务器(Nginx+DN)扩展单个集群的下载能力;LVS确保单台下载服务器宕机丌影响集群的正常下载服务;调度系统的健康检查机制确保集群宕后自劢切走流量;HDFS 多数据副本机制确保硬盘的损坏丌影响服务器的正常下载服务; 将获取容量使用情况方法由 du 改为 df ; 技术点:lvs...2013-07-09 10:23:07 · 99 阅读 · 0 评论 -
"Tag-TextRank:一种基于Tag的网页关键词抽取方法"分享总结
概述:该方法在TextRank基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合.主要贡献:(1) 在一个大规模的Tag数据集上抽样分析了用户标注Tag的行为,发现Tag数据的关联特征。 (2) 提出利用Tag 的关联文档信息来进行关键词抽取的框架,并给出一种实现方法Tag-TextRank。...2013-06-14 18:54:15 · 263 阅读 · 0 评论 -
"自动文摘"分享总结
概述:自动文摘技术的目标是致力于将信息全面、简洁的文档直接呈现给用户。他的定义为:把一份文献内容的缩短的精确的表达而无须补充解释或评论,且对写文摘的人来说没有差别 。文摘的分类:依据文摘的功能(用途):指示性文摘 报道性文摘 评论性文摘 按文摘面向的用户划分:通用文摘 偏重文摘 文摘的制作方法分类:摘录型文摘(Summarization Based o...2013-06-06 17:43:11 · 271 阅读 · 0 评论 -
"本体映射中概念相似度计算的改进"分享总结
概述:传统计算相似度是基于语法计算其距离或者计算其Jaccard系数,这样存在一问题:如妈妈和母亲这两个是非常相似的,但是按照这种方式计算是不相似的。另外还有高级教师和副教授其实也是相关的,因此本文正是为了解决上述问题。知识点:1.基于语法计算概念的名称相似度 2.基于实例计算概念相似3.基于属性语法实例计算概念相似度 4.基于关系计算概念相似度 5.合并上述计算...2013-06-04 17:52:39 · 492 阅读 · 0 评论 -
"系统稳定性及性能优化"分享总结
概述:此分享是关于"系统稳定性及性能优化",强调稳定架构,容量规划,运行监控和弱依赖。技术点:系统可被监控;系统可被调试;系统可被容错;有相应的运维系统;发布回归操作; 图解: 总结:稳定的系统架构;系统的容量规划;系统的运行时监控;系统的依赖和降级; 详情参见附件...2013-05-31 15:03:15 · 1177 阅读 · 0 评论 -
"淘宝海量图片存储与CDN系统"分享总结
概述:此分享是关于"淘宝海量图片存储与CDN系统"的总体架构。技术点:1.图片多级缓存server2.tfs存储图片小文件3.基于GraphicsMagick处理图片4.LVS5.nginx6.Haproxy7.缓存文件基于内存hash做索引8.squid9.图片请求处理流程:–若请求图片在Cache中,直接发送–没命中,若本地有原图,则根据...2013-05-30 17:02:37 · 364 阅读 · 0 评论 -
"基于情境感知及糢糊理论的智慧型推荐系统"分享汇总
汇总如下:1.情景分为:运算情景,用户情景和实体情景;2.运算情景为具体的硬件,网络设备;用户情景为用户的偏好行为以及个人档案;实体情景为具体的环境,温度湿度等;3.模糊理论也就是最终获取一个概率值,而不是传统的是否二分法;4.集合A和集合B,那么A和B的匹配度为(A交B/A并B);5.对中文文章的文本处理包括:切词,词语重组,词过滤,同意转换和构建关键词;6.词重组具体...2013-05-29 22:27:21 · 288 阅读 · 0 评论 -
"架构、框架"分享总结
概念:1.架构2.框架3.设计模式总结:1.架构,框架和设计模式互不等同;2.框架不是可用的系统,不是工具类,而是为了某种需求而生成的软件半成品;3.架构确定了系统的层次结构,不同部分的协作;4.框架比架构更偏技术,而架构是可用基于框架;5.设计模式是一个设计问题的解决方式;6.框架给出的是具体的应用,而设计模式给出的单一的应用设计思路;7.设计模式...2013-05-29 21:09:21 · 93 阅读 · 0 评论 -
"Java在淘宝AD系统中的应用"分享汇总
AD系统的演进:条幅AD搜索AD定向AD AD系统需要的技术:高性能Web服务器关系数据库,内存KV数据库, NoSQL (BigTable) 搜索引擎排序算法(Ranking)实时计算海量日志收集和处理(MapReduce, 报表和结算)RPC,消息中间件客户端技术:浏览器,Javascript 多个子系统都采用Java实现:直通...2013-05-23 19:06:14 · 149 阅读 · 0 评论 -
“非常道之走出中国式体验的迷失”分享总结
总结如下:1.中国式体验的现状:混乱,抄袭和模仿;2.造成中国式体验的现状的原因:不思考+投机;3.不思考包括:恐慌心理和从众心理;4.投机包括:侥幸心理和功利心理;5.入门靠偶遇,实践靠耐心,提高靠悟性和获奖靠概念;6.用户深理解,设计点创新和技术强突破;7.用户行为,用户洞察,市场机会,产品机会和设计建议;8.找到关键点;9.设计战略,设计分析,设计机会,...2013-05-21 19:12:12 · 61 阅读 · 0 评论 -
“移动互联网的未来”总结
移动互联网的未来总结如下:1.平板电脑在未来2-3年销售将超过PC;2.智能机没有渗透年龄老化者;3.智能机没有渗透低消费者;4.智能机金砖四国中印销量最高,中国最大;5.新生市场为发展中国家;6.智能机VS平板,平板尚不成熟;7.平板销售热潮刚开始;8.移动设备主要用途是游戏和社交;9.移动设备看视频也在增加;10.电商20%来自移动设备;11.移动...2013-05-20 18:47:04 · 167 阅读 · 0 评论 -
"MySQL新技术探索与实践"分享总结
概述:此分享是关于MySQL新技术探索与实践的分享汇总 汇总点:MySQL分支:MariaDB、Drizzle新技术:Memcached ;以Flashcache为代表的二级缓存架构;以Fusion-IO为代表的PCI-E SSD等使用ICC编译Mysql,目的是引入三方Patch或修改源码同时提升效率;ICC编译版本效果高于GCC;EXT3不太兼容SSD设备,同...2013-06-19 11:39:49 · 117 阅读 · 0 评论 -
"阿里研究中心:大数据时代"分享总结
概述:此分享是关于阿里研究中心:大数据时代的分享汇总 分享点:大数据4V:大量(Volume);多样(Variety);快速(Velocity)和价值(Value)数据是资产,云为数据资产提供存储、访问和计算数据来源:互联网企业:SNS、微博、视频网站、电子商务网站物联网、移动设备、终端中的商品、个人位置、传感器采集的数据联通、移动、电信等通信和互联网运营...2013-06-20 17:07:15 · 149 阅读 · 0 评论 -
"淘宝营销平台介绍"分享总结
概述:此分享包括:淘宝营销平台介绍的汇总 汇总点:业务开放有哪些方式呢?业务开放的难点在哪里?业务开放应该如何规划?业务开放涉及哪些技术方面的内容呢?营销平台业务开放的经验分享! 技术点:插件技术,采用多级插件;使用Spring的Context来实现一些模块化的工作;基于声明式服务;遵循封闭性,功能应该是final类,扩展是非final...2013-07-01 16:33:33 · 813 阅读 · 0 评论 -
"MapReduce研究现状和毕玄-HBase简介与实践分享"分享总结
概述:此分享包括:MapReduce研究现状和毕玄-HBase简介与实践分享的汇总 汇总点:Table in HBase以Region为单位管理region(startKey,endKey);Hbase每个Column Family单独存储:storeFile;Hbase当某个Column Family累积的大小 > 某阈值时,自动分裂成两个Region通过查找-R...2013-06-25 16:38:51 · 255 阅读 · 0 评论