冰冷热带鱼-CSDN博客

原创 redis学习小结

安装 Redis1、下载源码，解压缩后编译源码。#wget http://download.redis.io/releases/redis-5.0.5.tar.gztar xzf redis-5.0.5.tar.gzcd redis-5.0.5makemake install2、编译完成后，在Src目录下，有四个可执行文件redis-server、redis-benchmark、redis-cli和redis.conf。然后拷贝到一个目录下。#复制代码 1 #创建redis目录 2

2022-01-16 22:22:26 491

原创 KUDU学习笔记-spark-kudu

启动kuducd /etc/init.d/—启动master[hadoop@hadoop000 init.d]$ sudo ./kudu-master startStarted Kudu Master Server (kudu-master): [ OK ]—启动tserver[hadoop@hadoop000 init.d]$ sudo ./kudu-tserver startStarted Kudu Tablet Server (kudu-tserve

2022-01-16 10:10:42 1561

原创 Spark 学习笔记——001【spark-mysql+spark-hive】

在本地提交 spark-submit./bin/spark-submit –class test001 –master local /home/hadoop/jars/com.imooc.bigdata-2.0.jar /home/hadoop/data/84-0.txt /home/hadoop/data/result./bin/spark-submit –class test001 –master yarn –name test001 /home/hadoop/jars/com.

2021-12-12 19:57:57 1664

原创 FLUM__学习笔记

flume==官网学习地址http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html验证flume 是否安装成功/home/hadoop/app/apache-flume-1.6.0-cdh5.16.2-bin/bin/flume-ng version实例1（小例）：配置netcat 接口方式的==》监控端口 #Name the components on this agent 命名每个sink \sourc

2021-12-04 20:42:59 130

原创 pandas 中容易忽略的函数

pd.cutmax_vakue=df["market_value"].max()min_vakue=df["market_value"].min()bins1=[min_vakue,500,1000,1500,max_vakue]df["占有率"]=pd.cut(df["market_value"],bins=bins1,labels=["无存在度","占有率-低","占有率-中","占有率-高"])pd.qcut() --平均划分.value_counts() 每个值得分组统计（gr

2021-03-22 16:31:15 110

原创 jupyter-notebook安装与配置

Jupyter notebook安装Nbextensionspip install jupyter_contrib_nbextensionsjupyter contrib nbextension install --user#如不成功继续输入jupyter contrib nbextension install --user --skip-running-check#安装yapfconda install yapf通用配置import numpy as npimport pandas

2021-03-14 09:34:35 131

原创流计算项目实战【KAFKA+FLUME+SPARKSTRAMING+HBASE】

1、使用python 造数据#!/usr/bin/env python# coding: utf-8# In[1]:import randomimport time# In[2]:url_paths=[ "/class/112.html", "/class/132.html", "/class/146.html", "/class/177.html", "/class/212.html", "/class/342.html",

2021-01-23 14:27:44 250

原创 spark -core 统计每个省份的点击量

package rdd.builderimport org.apache.spark.{SparkConf, SparkContext}object case_sortby { def main(args: Array[String]): Unit = { //构建环境参数 val conf = new SparkConf().setAppName("guanggao_top3").setMaster("local[*]") //构建环境 val sc =

2020-12-13 23:55:55 441

原创 pandas 中处理大型文件的方法

import pandas as pd import numpy as np读取数据g1=pd.read_csv(r"F:\_test.csv")g1查看表的行列信息，有多少行，多少列g1.shape查看表的内存信息g1.info(memory_usage="deep")查看不同内类型所占用的内存空间大小for dtype in ["float64","int64","object"]: selected_type=g1.select_dtypes(include=

2020-12-06 18:28:14 695 1

原创 Linux 环境的搭建【防火墙、时间同步、克隆多个机器、以及配置】

关闭防火墙service iptables stop关闭防火墙永久关闭防火墙，开机时候不要启动：chkconfig iptables off禁止开机自启查看防火墙状态service iptables status防火墙未运行，说明以及关闭成功时间同步插件安装用于同步时间的 ntp插件： yum -y install ntp ntpdate通过这个网站来同步对应的时间ntpdate cn.pool.ntp.org将系统时间写入硬盘时间 hwclock --systohc

2020-10-08 15:56:32 109

原创 linux搭建【2、系统设置、以及网络搭建】

创建用户为了后期切换方便，将不设置对应用户，使用root用户进行相应的操作查看计算机的名字hostname修改计算机的名字vi /etc/sysconfig/network重点：网络配置设置大数据所有机器所存在的网段hadoop102 192.168.2.217hadoop103 192.168.2.218hadoop104 192.168.2.219hadoop105 192.168.2.220对应的网段在101~254之间设置所有机器对应统一的网关1

2020-10-08 15:02:57 355

原创 Linux 环境的搭建【1、虚拟机、系统的安装】

下载 6.8版本的centoscentos：CentOS-6.8-x86_64-bin-DVD1.iso ，http://archive.kernel.org/centos-vault/6.8/isos/x86_64/CentOS-6.8-x86_64-bin-DVD1.iso1、将下载的ISO加载到vmware 中—————————————————————————————————————————————————设置好硬件设施后，将软件安装到硬件vmware中

2020-10-08 14:06:55 117

原创 pyspark 计算排序TOPN

计算数据中心排名前几的排序导入相关的依赖包import sysfrom pyspark import SparkConf, SparkContextif __name__ == '__main__': if len(sys.argv)!=2: print("Usage:TOPN <iput>", sys.stderr) sys.exit(-1)conf=SparkConf()sc=SparkContext(conf=conf);定义清

2020-10-06 10:39:26 1047

原创 pyspark 入门小案例

pyspark 入门小案例导入相应的依赖包import sysfrom pyspark import SparkConf, SparkContext设置对应的导入if name == ‘main’:if len(sys.argv)!=3:print("Usage:wordcount ", sys.stderr)sys.exit(-1)配置配置参数conf=SparkConf()sc=SparkContext(conf=conf);定义一个打印方法def printresul

2020-10-06 09:51:02 450

weixin_42991982的博客