自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 资源 (1)
  • 收藏
  • 关注

原创 docker run运行容器参数介绍

-d #后台运行,执行完命令就会在后台运行,而如果和--rm一起使用的话,执行完就删除,不会在后台运行对于使用-d启动的容器,如果要修改容器当中的内容,最好使用容器卷。-i #分配一个pseudo-tty,这个应该是一个终端-t #即使没有连接,也保持STDIN打开-i和-t一般一起使用,即进入到容器的终端--name #指定容器的名称,如果没有指定名称,将为你随机分配一个字符串Image[:tag] #指定镜像名称和版本信息docker run ubuntu:14.04

2021-09-01 20:34:30 1742

原创 java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

2021-06-04 19:59:12 1024 2

原创 vim命令

1 Vi有三种基本工作模式:命令模式文本输入模式末行模式1.1 命令行模式任何时候,不管用户处于何种模式,只要按一下ESC键,即可使Vi进入命令模式;我们在shell环境(提示符为$)下输入启动Vi命令,进入编辑器时,也是处于该模式下。在该模式下,用户可以输入各种合法的Vi命令,用于管理自己的文档。此时从键盘上输入的任何字符都被当做编辑命令来解释,若输入的字符是合法的Vi命令,则Vi在接受用户命令之后完成相应的动作。但需注意的是,所输入的命令并不在屏幕上显示出来。若输入的字符不是Vi的合法命令

2021-06-03 22:27:12 211

原创 Linux目录结构

/bin 二进制可执行命令/dev 设备特殊文件/etc 系统管理和配置文件/etc/rc.d 启动的配置文件和脚本/home 用户主目录的基点,比如用户user的主目录就是/home/user,可以用~user表示/lib 标准程序设计库,又叫动态链接共享库,作用类似windows里的.dll文件/sbin 超级管理命令,这里存放的是系统管理员使用的管理程序/tmp 公共的临时文件存储点/root 系统管理员的主目录/mnt 系统提供这个目录是让用户临时挂载其他的文件系统/lost+f

2021-06-03 22:10:01 90

原创 Scala中下划线的使用

1、方法转化为函数def m1(x:Int,y:Int)=x*yval f1=m1 _2、集合中的每一个元素val list=List(1,2,3,4)val list1=list.map(_ * 10)​3、获取元组Tuple中的元素val t=("hadoop",3.14,100)t._1t._2t._34、模式匹配val word="hadoop"val result =word match{ case "hadoop" => 1 case "spark

2021-06-03 22:06:07 203

原创 Scala开发环境安装配置

1. 开发环境安装学习如何编写scala代码之前,需要先安装scala编译器以及开发工具Java程序编译执行流程Scala程序编译执行流程scala程序运行需要依赖于Java类库,必须要有**Java运行环境**,scala才能正确执行要编译运行scala程序需要jdk ( jvm )scala编译器(scala SDK)1.1 安装JDK安装JDK 1.8 64位版本,并配置好环境变量1.2 安装scala SDKscala SDK是s

2021-06-03 21:16:19 96

原创 Java基础语法

Java 是一种面向对象的程序设计语言,可以使用这种语言编写程序,实现我们想要的一些功能。两大特点:面向对象:类和对象的概念,语言的三大特性:封装、继承、多态;跨平台:Java程序一次编译,在多个平台(Windows,Linux,Mac)下运行;三大体系:J2SE: Java的标准版,其中提供了完整的Java核心API,用于标准的应用程序开发。J2ME: Java的微型版,对Java API进行了精简,常用于移动端的开发。J2EE: Java的企业版,用于企业级的应用服务开发,提供了一

2021-06-03 19:17:16 217 4

原创 慕课spark学习笔记

Scala部分在Scala中一切皆对象,一个数字也是一个对象,后面的加号就是方法。在Scala语言中object是一个单例对象,定义在单例对象里面的所有的方法都是一个静态方法,不需要实例化就可以执行,不需要像Java一样先new一下,然后再去执行。变量分为两种,一种是不可变的变量对应于函数式编程。另外一种是可变的变量对应于面向对象编程。比如Java和C就是面向对象编程,而Scala则是两种都有。scala> val st="hello"val s: String = helloscala&

2020-09-06 19:45:08 405

原创 spark注意事项小结

Driver 官方解释是 “The process running the main() function of the application and creating the SparkContext”。 Application 就是用户自己写的 Spark 程序(driver program),比如 WordCount.scala。 如果 driver program 在 Master(应该也是可以在worker节点上启动driver的) 上运行,比如在 Master 上运行。那么 SparkPi 就

2020-09-06 19:44:22 314

原创 kafka笔记

Kafka是一种分布式的、基于发布/订阅的消息系统特点:消息持久化:通过O(1)的磁盘数据结构提供数据的持久化高吞吐量:每秒百万级的消息读写分布式:扩展能力强多客户端支持:java、php、python、c++ ……实时性:生产者生产的message立即被消费者可见基本组件Broker:每一台机器叫一个BrokerProducer:日志消息生产者,用来写数据,当对接flume的时候,flume的sink就是Kafka的producer生产者Consumer:消息的消费者,用来读数据,可

2020-09-06 19:43:45 135

原创 flume笔记

Flume使用Event对象来作为传递数据的格式,是内部数据传输的最基本单元。flume内部有一个或者多个agent,每一个agent都是一个独立的守护进程(JVM)。一个agent可以包含三部分,分别为source、channel、sink,一个source能够对接多个channel,但是一个channel只能对接一个sink,其中channel是一个短暂的存储容器。可以通过参数设置event的最大个数Flume通常选择FileChannel,而不使用Memory ChannelMemory Ch

2020-09-06 19:43:06 313

原创 spark知识笔记

方法中定义的变量只能在driver中使用,要想在计算中使用,就要定义一个累加器

2020-09-06 19:42:53 165

原创 Spark任务的core,executor,memory资源配置方法

执行Spark任务,资源分配是很重要的一方面。如果配置不准确,Spark任务将耗费整个集群的机缘导致其他应用程序得不到资源。怎么去配置Spark任务的executors,cores,memory,有如下几个因素需要考虑:数据量任务完成时间点静态或者动态的资源分配上下游应用Spark应用当中术语的基本定义:Partitions : 分区是大型分布式数据集的一小部分。 Spark使用分区来管理数据,这些分区有助于并行化数据处理,并且使executor之间的数据交换最小化Task:任务是一个工作单

2020-09-06 19:42:05 1561

原创 spark任务提交

1,master和worker节点搭建spark集群的时候我们就已经设置好了master节点和worker节点,一个集群有多个master节点和多个worker节点。master节点常驻master守护进程,负责管理worker节点,我们从master节点提交应用。worker节点常驻worker守护进程,与master节点通信,并且管理executor进程。PS:一台机器可以同时作为master和worker节点(举个例子:你有四台机器,你可以选择一台设置为master节点,然后剩下三台设为wor

2020-09-06 19:41:41 131

转载 HBase基本数据操作详解

引言之前详细写了一篇HBase过滤器的文章,今天把基础的表和数据相关操作补上。本文档参考最新(截止2014年7月16日)的官方Ref Guide、Developer API编写。所有代码均基于“hbase 0.96.2-hadoop2”版本编写,均实测通过。欢迎转载,请注明来源:http://blog.csdn.net/u010967382/article/details/37878701...

2020-08-18 13:34:29 486 1

原创 SparkContext和SparkSession

任何Spark应用程序的第一步都是创建一个SparkSession。在交互模式中,通常已经为你预先创建了,但在应用程序中你必须自己创建。一些老旧的代码可能会使用new SparkContext这种方法创建,但是应该尽量避免使用这种方法,而是推荐使用SparkSession的构建器方法,该方法可以更稳定地实例化Spark和SQL Context,并确保没有多线程切换导致的上下文冲突,因为可能有多个库试图在相同的Spark应用程序中创建会话:// 采用Scala语言创建SparkSessionimport

2020-08-14 23:32:55 602

原创 first,show,take,collect,tail的用法

first() = head(1) head() 底层调用 take()show() 底层调用的take() 多了一层类型转换 将值转化为字符串 多了truncate参数,截取字符串功能take() 调用 collect() + limit()collect()触发runjob()执行任务tail() 返回dataframe最后一行,可能会OOM...

2020-08-14 21:01:38 444

原创 dataFrame,RDD,DataSet三者的区别与转换

DataFrame / DataSet / RDD的关系:RDD是Spark的基石,因为其他的spark框架都是运行在Spark core上的.但是在我们Spark sql里面,就有点区别了.在Spark sql中,DataSet是核心,没有之一.但是DataSet仅限于Spark sql中,不能在其他框架中使用,所以RDD依旧还是spark的基石,依旧是核心.而DataFrame已经被DataSet替换了,DataFrame能实现的功能,DataSet都能实现,相反,DataFrame却不能.三者的

2020-08-11 22:06:28 297

原创 spark中获取列columns的几种方式

spark中获取列的几种方式:df("columnName") // On a specific DataFrame.col("columnName") // A generic column no yet associated with a DataFrame.col("columnName.field") // Extracting a struct fieldcol("`a.column.with.dots`") // Escape `.` i

2020-08-09 14:13:23 2749

原创 pd.get_dummies的用法

import pandas as pddf = pd.DataFrame({'A':['a','b','a'],'B':['c','d','e'],'C':[1,2,3]})In [6]: dfOut[6]: A B C0 a c 11 b d 22 a e 3In [7]: pd.get_dummies(df)Out[7]: C A_a A_b B_c B_d B_e0 1 1 0 1 0 01 2

2020-08-08 11:07:44 1881

原创 als算法

// 加载观众影评数据集(观众ID,影片ID,评分)val rawData = sc.textFile("dataSet/MLDataSet/u.data")rawData.first()val rawRating = rawData.map(_.split("\t").take(3)) import org.apache.spark.mllib.recommendation.ALS import org.apache.spark.mllib.recommendation.Rating/

2020-08-07 17:25:46 309

转载 NLP

    我们在比较事物时,往往会用到“不同”,“一样”,“相似”等词语,这些词语背后都涉及到一个动作——双方的比较。只有通过比较才能得出结论,究竟是相同还是不同。但是万物真的有这么极端的区分吗?在我看来不是的,生活中通过“相似度”这词来描述可能会更加准确。比如男人和女人,虽然生理器官和可能思想有些不同,但也有相同的地方,那就是都是人,就是说相似度不为0;比如石头与小草,它们对于虚拟类都是一种实体类,相似度也不为0;两个句子词和词的顺序都一致,相似度就是1。一个概念可以应用到不同

2020-08-05 20:45:07 265

原创 mapValues和flatMapValues的用法

val a = sc.parallelize(Array((5,2),(6,3)))val b = a.flatMapValues(x=>1 to x)b.collect.foreach(println)结果为:(5,1)(5,2)(6,1)(6,2)(6,3)

2020-08-05 16:28:51 1962

原创 spark的jieba分词

import com.huaban.analysis.jieba.{JiebaSegmenter, SegToken}import com.huaban.analysis.jieba.JiebaSegmenter.SegModeimport org.apache.spark.SparkConfimport org.apache.spark.sql.functions.{col, udf}import org.apache.spark.sql.{DataFrame, SparkSession}ob

2020-08-05 14:13:46 888

原创 asInstanceOf和classOf使用

case class Order(order_id:String, user_id:String, eval_set:String, order_number:String, order_dow:String, hour:String, day:String)rdd.m

2020-08-05 14:12:12 293

原创 python中items、enumerate、zip以及dataframe的iterrows的用法

dt = {'Google': 'www.google.com', 'Runoob': 'www.runoob.com', 'taobao': 'www.taobao.com'}print ("字典值 : %s" % dt.items())# 遍历字典列表for key,values in dt.items(): print ("字典的键位"+key+"字典的值为"+values)输出结果为:字典值 : dict_items([('Google', 'www.google.com')

2020-08-03 20:38:42 1211

原创 spark官方文档中o和c的含义

c表示是一个class类o表示是一个object单例对象(java的static静态方法)t表示trait特质(java的抽象类)p表示package包

2020-08-01 21:05:43 250

原创 mkString的用法

a=Range(0,1,2,3,4,5)a为一个可迭代的对象a.mkString(",")结果为:0,1,2,3,4,5

2020-07-27 16:44:17 1148

原创 在配置zookeeper集群的时候提示Error contacting service. It is probably not running.

在配置zookeeper集群的时候,我使用的是三台机器,首先进入conf文件中使用vim zoo.cfg进去配置文件,修改数据文件的位置为dataDir=/home/hao/Pictures/zookeeper-3.4.14/my_zoo_data然后添加集群信息server.1=node1:2888:3888server.2=node2:2888:3888server.3=node3:2888:3888然后进入my_zoo_data文件当中使用vim myid然后在里面添加se

2020-07-08 18:56:13 281

原创 Scala关联源码

将Scala-sources-2.12.4.tar.gz拷贝到Scala的lib目录下,然后解压两次,然后进行attach关联即可

2020-07-02 14:14:54 301

原创 在idea使用CTRL+鼠标左键查看Scala源码显示decompile to java和choose source

只能选择反编译到Java或者选择源码两种选择,在网上找了半天都没有结果,只是有一篇说是到https://github.com/apache/spark/tree/branch-2.0下载源码包,于是我就下载了对应的源码包,接下来文章里面说直接新建工程,但是我也是使用那种方法,但是感觉结果就是单纯的看源码,并不是自己想要的结果,使用CTRL+鼠标左键就能看到相应的源码,终于在最后要放弃的时候,自己想到了,我可以查看这个刚下载的文件里面是否有.scala相应的源码包,发现真的有,然后我就点击上面的choo.

2020-06-25 15:04:04 1820 2

原创 numpy中一些实用的方法

import numpy as npw=np.array([546,12,3,456,45,12])wb = np.argsort(w) #值最小的数据的索引为2,最大的为索引为0的数据,按照升序进行排序索引print(wb)wc=w[wb[:4]] #得到最小的四个数据的具体值print(wc)print(np.bincount(wc)) #统计每个数字的个数,例如索引为0的位置表示0出现的次数print(np.argmax(np.bincount(wc))) #argmax给出

2020-06-22 00:11:23 140

原创 k近邻算法查看鸢尾花数据集

导入依赖的库import numpy as npimport pandas as pdfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_split #切分训练集和测试集from sklearn.metrics import accuracy_score #计算分类预测的准确率查看一些基本信息iris = load_iris()df = pd.DataFrame(data=

2020-06-22 00:06:18 379

原创 运行spark的example报错py4j.protocol.Py4JJavaError

File "/home/hao/Pictures/spark-2.4.3-bin-hadoop2.7/examples/src/main/python/streaming/stateful_network_wordcount.py", line 45, in <module> ssc.checkpoint("checkpoint")py4j.protocol.Py4JJavaError: An error occurred while calling o21.checkpoint. :

2020-06-18 10:30:58 1192

原创 使用spark.sql导入hive数据库的内容

要想spark的Scala里面可以执行import spark.sqlval orders=sql("select * from badou.orders1")那么就需要关联hive元数据cp ./hive-site.xml /home/hao/Pictures/spark-2.4.3-bin-hadoop2.7/confcp ./core-site.xml /home/hao/Pictures/spark-2.4.3-bin-hadoop2.7/confcp ./hdfs-site.xml

2020-06-12 21:02:22 239

原创 查看当前目录下每个文件夹大小

du -h -x --max-depth=1Linux中查看当前目录下每个文件夹大小

2020-06-12 13:44:14 1105

原创 scipy.linalg中kron的用法

import numpy as npimport scipy.linalg as la在进行数学运算的时候,我们会使用到一些矩阵相关的运算,其中kron就是其中的一个,但是kron并不是我们在线性代数里面用到的那种矩阵的乘法运算,下面我们通过一个例子去深入的理解kron的用法A=np.array([[1,2,3],[4,5,6]])B=np.array([[10,20]])la.kron(B,A)输出的结果为:array([[ 10, 20, 30, 20, 40, 60],[

2020-05-22 13:06:07 756

原创 np.argsort的理解

今天在学习的时候用到了numpy库的一个argsort函数,感觉是每个值的大小排序,例如使用np.argsort([5,4,10,7])打印出来的结果为:array([1, 0, 3, 2], dtype=int64)嗯不错感觉,4是最小的,所以第二个值为0,10是最大的所以第三个值为3,好像是这么回事,但是我又进一步实验了一下,如下面这个例子print(np.argsort([5,4,1,3]))那么按照我一开始的想法打印的结果应该是[3,2,0,1],但是我们可以自己实验一下,会发现结果是

2020-05-21 21:35:00 419

原创 python与Hadoop的交互

import pyhdfsfs = pyhdfs.HdfsClient(hosts='192.168.1.105,50070',user_name='hao')fs.get_home_directory()#返回这个用户的根目录fs.get_active_namenode()#返回可用的namenode节点fs.mkdirs('/wenjian') #新建文件fs.copy_from_local('c.txt','/jiqunwenjian/',) #上传本地文件到HDFS集群fs.copy_

2020-05-14 15:27:14 422

原创 Linux防火墙的使用

centos7防火墙使用的是firewall关闭防火墙:systemctl stop firewalld.service开启防火墙:systemctl start firewalld.service关闭开机启动:systemctl disable firewalld.service开启开机启动:systemctl enable firewalld.service查看开放的端口号:fire...

2020-05-03 11:07:49 249

winutils-master.rar

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries

2021-06-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除