CDH环境搭建遇到问题

问题描述:启动agent时失败,检查日志文件,发现如下 /opt/cloudera-manager/cm-5.3.8/lib64/cmf/agent/build/env/bin/python: error while loading shared libraries: libpython2....

2018-07-11 16:02:42

阅读数 200

评论数 0

Kafka篇

Kafka介绍 百度介绍   Kafka是一种高吞吐量的分布式发布订阅消息系统,它可>以处理消费者规模的网站中的所有动作流数据。 自我理解 kafka 消息中间件 mq 消息队列:一种应用程序对应用...

2018-03-26 17:26:36

阅读数 84

评论数 0

网络爬虫及scrapy爬虫框架介绍

爬虫介绍 爬虫介绍 无人值守的自动下载网页内容的手段,只要支持TCP网络编程的所有语言都可以实现爬虫 python爬虫火的原因 代码少。框架丰富,语法简洁 爬虫在技术上怎么实现 1:tcp能够连接–http 2:以流的形式读取并保存 产生爬虫框架的...

2018-03-26 17:24:57

阅读数 115

评论数 0

flume篇

flume介绍 日志数据收集器 flume使用步骤 定义source,channel(通道),sink(转存的位置) 启动agent 如果有数据,就已经开始接受转存了 flume运行机理 flume type介绍 sour...

2018-02-27 16:34:19

阅读数 87

评论数 0

Spark编程、RDD 功能介绍、RDD 元素变换、RDD 元素操作、DATAFRAME、SparkSQL

spark中起到driver和worker之间的桥梁的是?SparkContext sc 组织rdd之间依赖关系划分stage的是 DAGSchedule 管理taskSet的是? TaskSchedule 说出rdd中多台机上(worker)上执行的懒...

2017-12-23 16:15:53

阅读数 270

评论数 0

PySpark统计字母出现次数的平均值,及利用IPython (Jupyter) Notebook统计datas.csv数据

spark: 步骤: 1.start-dfs.sh 2.pyspark 3.[('a',3),('b',1),('c',4),('d',2),('a',7),('b',3),('c',6),('d',5),('a',4),('c',5),('...

2017-12-23 16:02:14

阅读数 945

评论数 0

Spark简介及其生态圈及Spark-core运行机理

hdfs:hadoop分布式系统 spark主要使用了hadoop中hdfs1 spark 用什么语言实现的? Spark使用Scala语言进行实现,Scala 建立在JAVA之上 scala:是一个多范式编程语言,学习难度大于Java、python.语法灵活简单 pys...

2017-12-23 15:14:10

阅读数 192

评论数 0

使用scala,python完成统计数据demo

环境变量修改为: export JAVA_HOME=/home/hadoop/opt/jdk1.8.0_152export PATH=PATH:PATH:JAVA_HOME/binexport HADOOP_HOME=/home/hadoop/opt/hadoop-2.9.0export HAD...

2017-12-16 15:17:28

阅读数 284

评论数 0

CentOs7搭建hadoop集群(伪分布式)下

在yarn-site.xml新增 ` <property> <name>yarn.nodemanager.vmem-check-enabled</name> &l...

2017-12-15 20:13:04

阅读数 155

评论数 0

CentOs7搭建hadoop集群(伪分布式)上

运行环境:CentOs7 所需工具:VMWare12,XShell(连接虚拟机),XFtp(文件传输) 所需Jar包:jdk-9.0.1_linux-x64_bin.tar.gz,hadoop-2.9.0.tar.gz,spark-2.2.1-bin-hadoop2.7.tgz 略过Cent...

2017-12-15 20:00:31

阅读数 251

评论数 1

简述大数据

大数据:学术解释:满足以下四个特征的数据: Volume(大量) Velocity(高速) Variety(多样) Veracity(价值) 自我解释:一台机器不能存储,一台物理机器短时间内不能计算出(处理)源于Google三篇论文:GFS、MAPREDUCE、BIGTABLE相...

2017-12-15 19:35:44

阅读数 178

评论数 0

简单操作play框架

play简介: play framework是一个full-stack(全栈的)Java Web的应用框架,包括一个简单的无状态MVC模型,具有Hibernate的对象持续,一个基于Groovy的模板引擎,以及建立一个现代Web应用所需的所有东西。 play安装及使用 我们将已经下载的pla...

2017-12-04 11:51:27

阅读数 321

评论数 0

Django中使用easyui

---Django中使用easyui 1.我们在上一篇的demo基础上,新建easyui目录, 并将easyui的有关支持(locale包、themes包、jquery.easyui.min.js、jquery.min.js)放该目录下 2.修改goods.html 先引用easyui目录下...

2017-11-16 17:26:02

阅读数 879

评论数 0

Django访问静态资源及连接mysql数据库(反向生成表)

---Django项目中一般不允许存在静态资源,我们为了演示。特做了一个小demo ---demo结构为:其中static为静态资源存放的目录,goods为新生成的application(点击Tools中的run manager.py,输入startapp goods) -----Django访...

2017-11-16 16:09:05

阅读数 340

评论数 1

Nginx+Redis+Tomcat7

------Nginx的介绍 Nginx (engine x) 是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器。 反向代理:在计算机世界里,由于单个服务器的处理客户端(用户)请求能力有一个极限,当用户的接入请求蜂拥而入时,会造成服务器忙不过来的局面,可以使用多...

2017-11-11 21:05:21

阅读数 175

评论数 0

Django

 ----认识Django:                    Django是一个开放源代码的webMVC框架                    M:entity framework                    V:view.py                  ...

2017-11-05 23:01:07

阅读数 145

评论数 0

正则

正则对数据处理,数据分析,数据校验方面十分有用。 让我们来学习下python中的正则模块吧 ---------------------分割线--------------------- python中正则模块re(regex的意思) 常用的模式:       .匹配任意字符,除了换行符     ...

2017-11-05 22:31:19

阅读数 92

评论数 0

Python Mysql

 我们来学习一下python如何操作Mysql数据库 首先,我们需要下载PyMySQL模块,利用PIP命令:pip install PyMySQL ok..,让我们开始操作数据库吧 -----------------------华丽的分割线-----------...

2017-11-03 12:58:53

阅读数 117

评论数 0

Scoket网络编程(python/Java版)

''' 网络:计算机与计算机之间的通信       协议:           TCP:可靠,有状态,长连接的协议(具有应答机制)               主叫方     被叫方                          服务套接字(socket)               客户套接...

2017-11-02 21:03:38

阅读数 222

评论数 0

Python3中有关TK模块

GUI中Tkinter详细介绍 Tkinter 是 Python 的标准 GUI 库。Python 使用 Tkinter 可以快速的创建 GUI 应用程序。 由于 Tkinter 是内置到 python 的安装包中、只要安装好 Python 之后就能 import Tkinter 库、而且 ...

2017-10-30 23:18:20

阅读数 3072

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭