大数据体系
云淡风清orz
关注大数据,AI
展开
-
大数据:数据库类型简介
这篇文章,作为抛砖引玉,给大家介绍各种常见数据库的类别。在之后还有发布一些文章,针对性地分析同一个类别中的数据库的优缺点。这将是一个系列的文章,几个从事大数据工作的朋友,组成一个大数据学习小组,对大数据的知识体系进行一次系统的梳理。在下表中,从几个维度简单展示了当下流行的一些数据库的特性,让大家能有个初步认识。在做出分类时,会有不准确的情况,比如Oracle是否支持内存存储,Oracle的临时...原创 2019-02-23 22:21:08 · 12420 阅读 · 1 评论 -
大数据:Oracle&MySql存储机制是否适合做数据仓库
这次主要讨论Oracle & MySQL底层的存储机制,以及是否适合做数据仓库。Oracle和Mysql的存储单位都极为相似,他们的最小单位分别是block/page,这个的大小是可以配置的。每一个block/page可以存储一条或多条数据。并且也是一次I/O读的最小单位。Oracle存储单位:Tablespace/Segments/Extents/blocksMySql存储单位:...原创 2019-03-02 08:48:55 · 1374 阅读 · 1 评论 -
大数据:运用Hash思维做聚类,不需要训练的平衡聚类
应用场景:现在有大量的用户行为数据,样本如下:用户A:‘网页登录’->‘选择商品A’->‘购买’用户B:‘手机登录’->‘进入游戏中心’->‘开始玩斗地主’这些都是用户单次登录后的行为数据流。需要将类似行为的用户数据流简单聚类,存储到不同的分区,方便后续的进一步分析。面临问题:用户行为太多,上千种:‘选择’,‘浏览’,‘管理’,‘玩耍’不了解数据分布情况,不...原创 2019-04-19 12:37:18 · 672 阅读 · 0 评论 -
爬虫:SNKRS电商网站应该怎么反爬,反BOT
黄牛抢鞋的过程:通常黄牛们都会用小程序不停地扫描SNKRS这样的电商网站,通过HTML里面的信息找到目标,比如AJ1,YEEZY等销量高的鞋。然后通过调用API的方式,实现“加入购物车”->“输入地址”->“付款”等步骤。下图是SNKRS的HTML,里面包含了API和鞋子的基本信息。无论是通过API调用还是headless browser(无头浏览器), 这些信息都是识别的关键。...原创 2019-05-21 21:14:34 · 7048 阅读 · 2 评论 -
爬虫:怎么应对字体混淆反爬机制,TTF怎么转换为SVG,PNG
现在越来越多的网站开始采用字体混淆,这种技术来应对爬虫。它就是采用TTF等一些字体文件替换掉了HTML里面的文本信息。并且准备了几千套字体作为爬虫的见面礼。为什么需要将TTF转换为SVG,PNG图片?因为当存在几千套字的时候,单纯比较文件名,unicode, 顶点信息都是无法识别的。下图就是汽车之家的例子,同样一个字‘下’,在不同页面是有细微区别的。解决这样的问题,最好的方式就是OCR,O...原创 2019-05-21 22:34:28 · 2018 阅读 · 2 评论