大数据相关
chinasiyu
这个作者很懒,什么都没留下…
展开
-
spark单机模式快速搭建
运维做了8年,带了好几年团队,但是逐渐发现自己技术上飘飘然,前几年还写写代码,做做运维,现在只能探探规划,看看方向。什么spark、docker、k8s、hadoop、open-falcon、devops、aiops都带团队做过,但自己真没具体做过。今天开始在运维、开发领域做个新手,重新从0开始学习,看看自己是不是既能上天又能入地 Spark介绍:Spark程序在集群中独立运行,通过S...原创 2019-01-01 23:29:11 · 3719 阅读 · 0 评论 -
python连接standalone版spark
昨天已经完成了standalone的spark搭建,当然今天在实际使用python连接时,发现其实是有问题的。master和slave其实并没有成功连接,原因是启动slave时指定的master ip地址有误,需要通过netstat查看7077在哪个ip上侦听,不可直接写127.0.0.1 今天成功用python连接了昨天搭建的spark集群做简单计算 环境:python3...原创 2019-01-02 16:24:21 · 505 阅读 · 0 评论 -
python spark streaming单机测试,streaming源为本地,统计word count
网上有很多pyspark streaming的测试代码,不过大多都是需要结合kafka做消息来源由于懒得搭kafka,所以想本地生成随机数据作为streaming源,测试spark streaming google查了一些文章,其实spark github中就有类似代码,只不过文件名叫 hdfs_wordcount.py,是针对hdfs的examplehttps://github....原创 2019-01-03 17:08:28 · 644 阅读 · 0 评论 -
python kafka消息传入spark streaming 实时计算打印
实现了从kafka取nginx日志,并在本地打印出来 #!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2019/01/09 18:00# @Author : xuanda# @Site : # @File : kafka_to_sparkstreaming.pyfrom pyspark import...原创 2019-01-09 18:12:34 · 778 阅读 · 0 评论 -
python spark streaming 从 kafka获取nginx日志,秒级统计url pv,并写入mysql
mysql建库建表>create database nginx;>use nginx> create table url_access (id int NOT NULL AUTO_INCREMENT primary key, timestamp varchar(256), url varchar(256), pv long); #!/usr/bin/env ...原创 2019-01-09 23:44:03 · 539 阅读 · 0 评论