大数据
文章平均质量分 92
流火星空
七月流火,浩瀚星空
展开
-
一次爬虫的编写尝试
一 背景近期有想法,想要拿到指定时间段的新闻/文章信息,简单做个舆情分析。那么最基础的就是先获取文章列表。舆情相关的现成接口有一些,例如 微博的舆情监测平台,里面有比较成熟的api提供;阿里云,百度云也都有舆情接口。 不过受限于某些因素,或是费用问题,或是api本身能提供的新闻时间范围不符合预期,导致无法直接使用。那么就考虑临时通过spider去抓取一些信息,用于支持本次的工作内容。二 关于舆情检测舆情监测,是指根据关键词获取舆情信息,包括新闻、论坛、博客、微博、微信、贴吧等。这里补一句,京东云原创 2021-09-13 20:44:15 · 715 阅读 · 0 评论 -
数据架构:数据冷热分离实践思考
系列文章:数据架构:概念与冷热分离公众号:程序员架构进阶一 概述上一篇文章数据架构:概念与冷热分离中介绍了数据架构的概念和意义。并抛出了数据冷热分离的问题。事实上,这并不是新的概念,各公司在很早之前就已经开始了落地实践。微软云有冷热 blob 存储,阿里云有 ots,都是为了在云服务层面提供冷热存储的解决方案。尽管有这些工具,如果很好地实现冷热分离,仍然是值得仔细思考和玩味的。二 冷热分离核心问题与案例2.1 关键问题回归话题,无论我们怎样选择冷热存储方案,首先,都还是需要.原创 2021-05-10 19:36:25 · 974 阅读 · 3 评论 -
CentOS7下Hadoop2.9.2、Hive 2.3.6安装与实践
参考的安装文章地址:https://blog.csdn.net/pengjunlee/article/details/81607890实际安装的版本为: hadoop 2.9.2, hive 2.3.6;操作系统:centos 3.10.0-957.1.3.el7.x86_64但安装步骤与原文相同,可直接参考。操作实录:1、hive中建立数据库后,会在hdfs中出现对象的库名.db...原创 2019-09-24 23:57:43 · 849 阅读 · 0 评论 -
Spark Streaming和Storm选型[转自知乎,仅作备份]
原文网址:https://www.zhihu.com/question/29092950Carey Tzou的回答。如有转载请著名版权。作者:Carey Tzou链接:https://www.zhihu.com/question/29092950/answer/131543255来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。先上图,这是一年前技术选型时做的一个对比表...转载 2018-02-27 09:38:30 · 918 阅读 · 0 评论 -
Mac下hadoop,hive, hbase,spark单机环境搭建
最近在用mac笔记本搭建hadoop+hive+spark的测试环境,中间遇到不少问题,所以,记录一下,希望以后不会再犯。也可供参考。之前在linux虚机下从wget软件包开始搭建过一次环境,mac下则是使用brew来进行快速安装的。不得不说,用brew后方便很多。一 hadoop安装:大家可以参考https://www.cnblogs.com/davidgu/p/617919原创 2017-05-22 23:37:14 · 5251 阅读 · 0 评论 -
hadoop、hive常见问题及解决方式
1、hive查询卡死现象:执行hive查询时,迟迟不能出现map-reduce任务进度原因:空间不足导致,清理掉无用的文件,释放出空间即可。通常建议剩余空间为查询数据的两倍2、hdfs使用空间超出实际占用空间现象:通过hdfs dfs-du-h/命令查看到各个目录所占的空间原因:因为删除操作,大量的垃圾文件堆积在/user/root/.Trash ,这个原创 2018-01-03 13:18:39 · 1440 阅读 · 1 评论 -
分布式架构下开发整理
======持续更新中======针对kafka、storm、mongodb集群1、intellij idea gradle项目开发gradle内dependences配置方法:http://mvnrepository.com/artifact/storm/storm上面页面中搜索框,搜索要引入的依赖名称,如storm,点击搜索后,会返回可以引入的storm原创 2017-10-28 18:24:45 · 296 阅读 · 0 评论 -
mongodb关键指标查看及常规统计命令
整理本次mongo集群的分析过程参考文章地址:https://my.oschina.net/taisha/blog/1229891. 获取mongoDB中数据库的大小命令use databasenamedb.stats()显示信息如下> db.stats(){ "collections" : 3, "objects" : 80614, "dataSize" : 2106原创 2017-07-20 14:08:11 · 1270 阅读 · 0 评论 -
部分开放数据接口汇总【持续更新中】
一 股票数据1、新浪实时股票数据接口 地址:http://hq.sinajs.cn/list=sh601006得知来源:http://blog.csdn.net/simon803/article/details/7784682数据格式:var hq_str_sh601006="大秦铁路,8.200,8.230,8.040,8.210,8.010,8.030,8.04原创 2017-06-06 18:04:33 · 1000 阅读 · 0 评论