2018年04月_baiyan_er

原创解决You are using pip version 9.0.1, however version 9.0.3 is available. You should consider upgrading

解决问题：You are using pip version 9.0.1, however version 9.0.3 is available.You should consider upgrading via the 'python -m pip install --upgrade pip' command.解决方法：直接运行命令：python -m pip install --upgrade...

2018-04-28 23:07:40 453

原创 kafka pyspark（集群zookeeper）

准备：首先cmd 在运行中安装pyspark pip install pysparkspark-streaming得数据的几种途径: socker: 网络中 queue: sc散列的数据 flume: 通过 flume得数据，sinks kafka: 通过kafka得数据有两种：一种是...

2018-04-28 22:40:11 866

原创 kafka python版的生产者，消费者

之后我们自己制作一个python的kafka 生产者，python版的kafka的消费者,即flume的agend也不用控制台。首先启动pycharm,在pycharm需要安装安装完成后python文件就可以导入包 from kafka import KafkaProducer启动zookeeperpython中的代码from kafka import KafkaProducerproduce...

2018-04-28 17:54:36 4776 1

原创 hadoop-----flume(kafka)

kafka设计模式：发布定阅它是一个消息中间件，大数据思想，以前用mq,现在用kafka的比较多，但需要学会java，是java编写的，用python也可以，用的比较少, 不参与数据的产生和输出。只提供一个电台的机制，大家到电台发布节目，谁看不关心，谁要看到kafka定阅，而flume到一个地方收数据，一地方送数据。而kafka发数据与收数据需要自己写。kafka发布订阅中间起作用的是proke...

2018-04-26 23:44:39 412

原创 hadoop部署（2）flume配置hdfs

flume 可以显示在控制台上，上篇。接着看下是怎么显示的hdfs上首先启动dfs.shFLUME官网找到hdfs sink接上篇还是编辑aa.conf广州根椐官网上提供的实例将配置文件改成接着ESC shift+z+z 保存退出看下hdfs 有没有生成日志目录生成日志文件：文件大小和多长时间生成一个日志文件看下官网flume生成的都有哪些文件类型默认的文件格式是sequenceFile...

2018-04-26 22:35:22 293

原创部署数据环境(flume)

flume连接kafkaflume(日志收集器):通过一个配置文件定义一个代理配置文件:(1).source ：从哪里过来(2).sink：数据流向哪里(3)通道:通过通道输出。使用内存传数据比较慢。如果数据传的快过内存，就会堵塞，为了解决瓶颈问题，我们使用kafka,kafka输出的比较块。但是如果通过网络传输就会慢下来。所以这个时候就有另外一办法解决这个问题。就是收集日志，定义一堆分支，集群式...

2018-04-23 23:50:22 436

原创 hadoop (mapreduce运行原理)

架构执行流程分布式并行计算框架默认情况下,一般情况下是一个map,还有一种情况是这个文件大过map,把文件分成一个一个块计算map有限定最多启动多少个，系统绝定，但有20个进程，而map最多启16个，只能先执行16个在执行4个inputsplit(数据源通过分片,有很多预定好的分割方式)-------map(有多少分片启动多少map 进程)---------record(每个map进程完成分片中的...

2018-04-23 21:11:30 439

原创 hadoop hdfs读写流程和主从架构模式

区块链技术没有中心hdfs 读写流程(1)架构体系主从模式（集中式管理）(2)主:namenode 从:datanode(3)缺点:namenode 只有一个datanode有多个,单点故障缺点,这个缺点怎么解决,高可用的方式，副namenode不是secondarynamenode但功能是一样的。(4)当主namenode坏掉了，这个副namenode马上就能接替namenode的工作，而s...

2018-04-21 11:29:55 1289

原创 sparksql(2)

接上篇student表也就是在pyspark中可以有两种方式：1，agg(汇总) 2,sql语句查询接着实现自定义函数(1)这是用concat()函数将两个连接不是自定义的（2）用自定义函数实现连接（sql 方式）如果在查询语句时需要复杂的编程，需要定义函数，上方是sql方式调用自定函数sqlContext-----------下边注册函数(registerFunction,spark是sq...

2018-04-21 10:20:27 214

原创 sparksql

1.启动start-dfs.sh,然后启动,jupyter-noteboot --ip python22.看数据库中多出来一个数据库schoolspark.sql("desc formatted testb").show() -------------查看表格的所有信息下边创建一个表下边把数据导到这个student表中：接着验证下写三条记录放追加到student表中#这个列表中有三条记录放在...

2018-04-20 23:23:11 243

原创 django之easyUI(2)

接上篇easyUi(1)首先把树删成只剩一个子节点在shop 的app中创建一个urls文件接着在总项目的urls 中添加shop这个app的路径到后台views中写queryTree 函数from django.views.decorators.csrf import csrf_exempt 导入这个模块在函数上方 @csrf_exempt1.知识点当点击树目录时会自动加载传后台又加一遍文件目...

2018-04-18 22:07:56 1179 1

原创 hive安装及连接MySql

一、首先到mysql官网下载mysql-yum1.下载好后，上传到linux 中2,接下来运行(rmp -Uvh mysql57-community-release-el7-11.noarch.rpm)3,接下来安装mysql(yum install mysql-community-server -y)4,接着修改关闭密码验证修改/etc/mycnf在最后添加 plugin-load=...

2018-04-18 17:28:07 10636

原创 linux安装mysql时使用临时密码登录不进去mysql: [Warning] Using a password on the command line interface can be insec

1.在root用户下，停止mysqlservice mysqld stop2.vi /etc/my.cnf在[mysqld]的段中加上一句skip-grant-tables [mysqld]skip-grant-tables shift+z+z;保存退出3.重新启动mysqlsystemctl start mysqld3.登录修改mysql 的密码[root@python2 hadoop]# my...

2018-04-16 20:58:06 33235 5

原创 django之easyUI(1)

1,到easyUi官方下载easyUi，打开easyui 里的像书图标的文件，里找到layout(布局)2,新建一个django项目 shopping appname（1）-------shop3.布局复制过来将代码复制到manager.html Div 复制到manager.html 的页面上边添加static路径，用来放静态文件将文件路径修改正确下边删除不用的框架在eas...

2018-04-12 22:16:55 1387

baiyan_er的博客