大数据技术分享
从数据抓取到数据分析,陪你一起走过整个流程
冻梨不是梨
公众号:壹家大数据
展开
-
k8s create configmap --from-file 的正确用法
紧张忙碌的开发生活,总会出现许多意外的小插曲,比如-测试。本来一天的生活安排的挺好的,上午修改问题,下午验证修改是否OK,就可以按照正常的节奏处理完问题单。结果下午刚开始,测试就发来了消息:有个问题,要不一起看下?本着测试开发是一家的精神,肯定不能推脱啊,来,一起看看吧。经过了大约3分钟的询问和大约10分钟的日志分析,终于弄明白测试遇到的问题了,是一个脚本里面的k8s命令执行的时候出了问题...原创 2020-03-24 00:01:21 · 4001 阅读 · 2 评论 -
hadoop安装教程
Hadoop的优势1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。3) 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。4)高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。 ...原创 2018-12-16 19:39:03 · 328 阅读 · 1 评论 -
kafka 核心API之 消费者
目录 一 Customer和Customer Group二 Partition Rebalance分区再均衡三 创建Kafka消费者、订阅主题、轮询四 消费者的配置五 提交和偏移量如有疑问,请扫二维码,在后台留言!微信公众号 Hadoop 入门教程已经更新完成!微信公众号 kafka教程正在更新中,欢迎关注!微信公众号 flink教程正在更新中,欢迎关注!...原创 2019-01-01 21:53:35 · 650 阅读 · 0 评论 -
kafka 日志滚动配置
kafka 定时删除数据kafka 删除数据其实删除其日志,kafka 的数据其实是kafka 的message 固化到硬盘形成的,她允许配置成一定的策略来删除数据,。数据删除的方式:首先进入kafka的安装目录,找到其中的config文件夹,然后进入,在里面找到server.properties 文件, 编辑该文件 vi server.properties操作如下:cd /us...原创 2018-12-07 14:17:26 · 1230 阅读 · 0 评论 -
ubuntu 下的maven配置
安装环境:1.ubuntu 16.042.安装maven版本3.6.0 一 下载 首先从apache-maven官网下载需要的maven的tar包,链接如下:http://maven.apache.org/download.cgi从中找...原创 2018-12-23 20:42:40 · 929 阅读 · 0 评论 -
python 《我不是药神》豆瓣影评爬取
python 版本3.6 爬取豆瓣上的《我不是药神》的评论,代码直接粘贴在下面了,注意把其中的headers,替换成自己的。具体的方法是打开豆瓣官网,然后 右键 审查元素,点击network,刷新,找到第一个链接就能点击, 然后右侧就能出现了,之后下来会看到requests headers,那里就是,如下图所示:之后将那里面的东西复制出来,粘贴到代码里的headers出就可以了。有写的...原创 2018-08-19 09:57:25 · 2236 阅读 · 4 评论