技术方案解决
花和尚也有春天
会收集一些不错的文章,时常品读,也学着自己总结一些东西,坚持努力的方向!
展开
-
Spark:json日志文件通过spark转存成parquet方案
收集的业务数据为json格式,准备利用parquet 格式重新存储到hive表,以节约空间并方便后续通过spark 或 hive 进行分析查询。 (示例代码是用python) 具体步骤是: 1. 用spark读取json数据后,得到一个dataframepath = '/xx/xxx/xxx.json'df = sqlContext.read.json(path)2. datafr...转载 2018-09-20 00:02:03 · 552 阅读 · 0 评论 -
技术方案解决:海量日志数据__怎么在海量数据中找出重复次数最多的一个
问题一: 怎么在海量数据中找出重复次数最多的一个算法思想: 方案1:先做hash,然后求模映射为小文件,求出每个小文件中重复次数最多的一个,并记录重复次数。 然后找出上一步求出的数据中重复次数最多的一个就是所求(如下)。 问题二: 网站日志中记录了用户的IP,找出访问次数最多的IP。算法思想: ...转载 2018-10-19 16:56:33 · 952 阅读 · 0 评论 -
内网跟外网有什么区别
回答一:关于内网和外网网上经常看到有人问内网和外网的区别,其实外网和内网的概念很模糊,全看你怎么理解。希望这篇文章能帮助大家明确一些概念。简单的说,自己的单位或者家庭、小区内部有局域网;单位、家庭之外有覆盖范围极大的网络,比如internet,这个大网络延伸到了我们的单位、家庭(通过光纤、网线、电话线等)。我们把自己的局域网连接到internet上,那么我们的访问范围就从局域网扩展到了整个i...转载 2019-01-11 19:58:01 · 1260 阅读 · 0 评论