ILovePythonhao-CSDN博客

原创 docker run运行容器参数介绍

-d #后台运行，执行完命令就会在后台运行，而如果和--rm一起使用的话，执行完就删除，不会在后台运行对于使用-d启动的容器，如果要修改容器当中的内容，最好使用容器卷。-i #分配一个pseudo-tty，这个应该是一个终端-t #即使没有连接，也保持STDIN打开-i和-t一般一起使用，即进入到容器的终端--name #指定容器的名称，如果没有指定名称，将为你随机分配一个字符串Image[:tag] #指定镜像名称和版本信息docker run ubuntu:14.04

2021-09-01 20:34:30 1784

原创 java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

2021-06-04 19:59:12 1048 2

原创 vim命令

1 Vi有三种基本工作模式：命令模式文本输入模式末行模式1.1 命令行模式任何时候，不管用户处于何种模式，只要按一下ESC键，即可使Vi进入命令模式；我们在shell环境(提示符为$)下输入启动Vi命令，进入编辑器时，也是处于该模式下。在该模式下，用户可以输入各种合法的Vi命令，用于管理自己的文档。此时从键盘上输入的任何字符都被当做编辑命令来解释，若输入的字符是合法的Vi命令，则Vi在接受用户命令之后完成相应的动作。但需注意的是，所输入的命令并不在屏幕上显示出来。若输入的字符不是Vi的合法命令

2021-06-03 22:27:12 235

原创 Linux目录结构

/bin 二进制可执行命令/dev 设备特殊文件/etc 系统管理和配置文件/etc/rc.d 启动的配置文件和脚本/home 用户主目录的基点，比如用户user的主目录就是/home/user，可以用~user表示/lib 标准程序设计库，又叫动态链接共享库，作用类似windows里的.dll文件/sbin 超级管理命令，这里存放的是系统管理员使用的管理程序/tmp 公共的临时文件存储点/root 系统管理员的主目录/mnt 系统提供这个目录是让用户临时挂载其他的文件系统/lost+f

2021-06-03 22:10:01 113

原创 Scala中下划线的使用

1、方法转化为函数def m1(x:Int,y:Int)=x*yval f1=m1 _2、集合中的每一个元素val list=List(1,2,3,4)val list1=list.map(_ * 10)3、获取元组Tuple中的元素val t=("hadoop",3.14,100)t._1t._2t._34、模式匹配val word="hadoop"val result =word match{ case "hadoop" => 1 case "spark

2021-06-03 22:06:07 227

原创 Scala开发环境安装配置

1. 开发环境安装学习如何编写scala代码之前，需要先安装scala编译器以及开发工具Java程序编译执行流程Scala程序编译执行流程scala程序运行需要依赖于Java类库，必须要有**Java运行环境**，scala才能正确执行要编译运行scala程序需要jdk ( jvm )scala编译器（scala SDK）1.1 安装JDK安装JDK 1.8 64位版本，并配置好环境变量1.2 安装scala SDKscala SDK是s

2021-06-03 21:16:19 107

原创 Java基础语法

Java 是一种面向对象的程序设计语言，可以使用这种语言编写程序，实现我们想要的一些功能。两大特点：面向对象：类和对象的概念，语言的三大特性：封装、继承、多态；跨平台：Java程序一次编译，在多个平台（Windows，Linux，Mac）下运行；三大体系:J2SE: Java的标准版，其中提供了完整的Java核心API，用于标准的应用程序开发。J2ME: Java的微型版，对Java API进行了精简，常用于移动端的开发。J2EE: Java的企业版，用于企业级的应用服务开发，提供了一

2021-06-03 19:17:16 236 4

原创慕课spark学习笔记

Scala部分在Scala中一切皆对象，一个数字也是一个对象，后面的加号就是方法。在Scala语言中object是一个单例对象，定义在单例对象里面的所有的方法都是一个静态方法，不需要实例化就可以执行，不需要像Java一样先new一下，然后再去执行。变量分为两种，一种是不可变的变量对应于函数式编程。另外一种是可变的变量对应于面向对象编程。比如Java和C就是面向对象编程，而Scala则是两种都有。scala> val st="hello"val s: String = helloscala&

2020-09-06 19:45:08 430

原创 spark注意事项小结

Driver 官方解释是 “The process running the main（） function of the application and creating the SparkContext”。 Application 就是用户自己写的 Spark 程序（driver program），比如 WordCount.scala。如果 driver program 在 Master（应该也是可以在worker节点上启动driver的）上运行，比如在 Master 上运行。那么 SparkPi 就

2020-09-06 19:44:22 357

原创 kafka笔记

Kafka是一种分布式的、基于发布/订阅的消息系统特点：消息持久化：通过O(1)的磁盘数据结构提供数据的持久化高吞吐量：每秒百万级的消息读写分布式：扩展能力强多客户端支持：java、php、python、c++ ……实时性：生产者生产的message立即被消费者可见基本组件Broker：每一台机器叫一个BrokerProducer：日志消息生产者，用来写数据，当对接flume的时候，flume的sink就是Kafka的producer生产者Consumer：消息的消费者，用来读数据，可

2020-09-06 19:43:45 152

原创 flume笔记

Flume使用Event对象来作为传递数据的格式，是内部数据传输的最基本单元。flume内部有一个或者多个agent，每一个agent都是一个独立的守护进程（JVM)。一个agent可以包含三部分，分别为source、channel、sink，一个source能够对接多个channel，但是一个channel只能对接一个sink，其中channel是一个短暂的存储容器。可以通过参数设置event的最大个数Flume通常选择FileChannel，而不使用Memory ChannelMemory Ch

2020-09-06 19:43:06 355

原创 spark知识笔记

方法中定义的变量只能在driver中使用，要想在计算中使用，就要定义一个累加器

2020-09-06 19:42:53 185

原创 Spark任务的core，executor，memory资源配置方法

执行Spark任务，资源分配是很重要的一方面。如果配置不准确，Spark任务将耗费整个集群的机缘导致其他应用程序得不到资源。怎么去配置Spark任务的executors，cores，memory，有如下几个因素需要考虑：数据量任务完成时间点静态或者动态的资源分配上下游应用Spark应用当中术语的基本定义：Partitions : 分区是大型分布式数据集的一小部分。 Spark使用分区来管理数据，这些分区有助于并行化数据处理，并且使executor之间的数据交换最小化Task：任务是一个工作单

2020-09-06 19:42:05 1623

原创 spark任务提交

1，master和worker节点搭建spark集群的时候我们就已经设置好了master节点和worker节点，一个集群有多个master节点和多个worker节点。master节点常驻master守护进程，负责管理worker节点，我们从master节点提交应用。worker节点常驻worker守护进程，与master节点通信，并且管理executor进程。PS：一台机器可以同时作为master和worker节点（举个例子：你有四台机器，你可以选择一台设置为master节点，然后剩下三台设为wor

2020-09-06 19:41:41 138

转载 HBase基本数据操作详解

引言之前详细写了一篇HBase过滤器的文章，今天把基础的表和数据相关操作补上。本文档参考最新（截止2014年7月16日）的官方Ref Guide、Developer API编写。所有代码均基于“hbase 0.96.2-hadoop2”版本编写，均实测通过。欢迎转载，请注明来源：http://blog.csdn.net/u010967382/article/details/37878701...

2020-08-18 13:34:29 522 1

原创 SparkContext和SparkSession

任何Spark应用程序的第一步都是创建一个SparkSession。在交互模式中，通常已经为你预先创建了，但在应用程序中你必须自己创建。一些老旧的代码可能会使用new SparkContext这种方法创建，但是应该尽量避免使用这种方法，而是推荐使用SparkSession的构建器方法，该方法可以更稳定地实例化Spark和SQL Context，并确保没有多线程切换导致的上下文冲突，因为可能有多个库试图在相同的Spark应用程序中创建会话：// 采用Scala语言创建SparkSessionimport

2020-08-14 23:32:55 632

原创 first,show,take,collect,tail的用法

first() = head(1) head() 底层调用 take()show() 底层调用的take() 多了一层类型转换将值转化为字符串多了truncate参数，截取字符串功能take() 调用 collect() + limit()collect()触发runjob()执行任务tail() 返回dataframe最后一行，可能会OOM...

2020-08-14 21:01:38 481

原创 dataFrame,RDD,DataSet三者的区别与转换

DataFrame / DataSet / RDD的关系：RDD是Spark的基石,因为其他的spark框架都是运行在Spark core上的.但是在我们Spark sql里面,就有点区别了.在Spark sql中,DataSet是核心,没有之一.但是DataSet仅限于Spark sql中,不能在其他框架中使用,所以RDD依旧还是spark的基石,依旧是核心.而DataFrame已经被DataSet替换了,DataFrame能实现的功能,DataSet都能实现,相反,DataFrame却不能.三者的

2020-08-11 22:06:28 320

原创 spark中获取列columns的几种方式

spark中获取列的几种方式：df("columnName") // On a specific DataFrame.col("columnName") // A generic column no yet associated with a DataFrame.col("columnName.field") // Extracting a struct fieldcol("`a.column.with.dots`") // Escape `.` i

2020-08-09 14:13:23 2789

原创 pd.get_dummies的用法

import pandas as pddf = pd.DataFrame({'A':['a','b','a'],'B':['c','d','e'],'C':[1,2,3]})In [6]: dfOut[6]: A B C0 a c 11 b d 22 a e 3In [7]: pd.get_dummies(df)Out[7]: C A_a A_b B_c B_d B_e0 1 1 0 1 0 01 2

2020-08-08 11:07:44 1906

原创 als算法

// 加载观众影评数据集（观众ID，影片ID，评分）val rawData = sc.textFile("dataSet/MLDataSet/u.data")rawData.first()val rawRating = rawData.map(_.split("\t").take(3)) import org.apache.spark.mllib.recommendation.ALS import org.apache.spark.mllib.recommendation.Rating/

2020-08-07 17:25:46 338

转载 NLP

我们在比较事物时，往往会用到“不同”，“一样”，“相似”等词语，这些词语背后都涉及到一个动作——双方的比较。只有通过比较才能得出结论，究竟是相同还是不同。但是万物真的有这么极端的区分吗？在我看来不是的，生活中通过“相似度”这词来描述可能会更加准确。比如男人和女人，虽然生理器官和可能思想有些不同，但也有相同的地方，那就是都是人，就是说相似度不为0；比如石头与小草，它们对于虚拟类都是一种实体类，相似度也不为0；两个句子词和词的顺序都一致，相似度就是1。一个概念可以应用到不同

2020-08-05 20:45:07 296

原创 mapValues和flatMapValues的用法

val a = sc.parallelize(Array((5,2),(6,3)))val b = a.flatMapValues(x=>1 to x)b.collect.foreach(println)结果为：(5,1)(5,2)(6,1)(6,2)(6,3)

2020-08-05 16:28:51 2026

原创 spark的jieba分词

import com.huaban.analysis.jieba.{JiebaSegmenter, SegToken}import com.huaban.analysis.jieba.JiebaSegmenter.SegModeimport org.apache.spark.SparkConfimport org.apache.spark.sql.functions.{col, udf}import org.apache.spark.sql.{DataFrame, SparkSession}ob

2020-08-05 14:13:46 936

原创 asInstanceOf和classOf使用

case class Order(order_id:String, user_id:String, eval_set:String, order_number:String, order_dow:String, hour:String, day:String)rdd.m

2020-08-05 14:12:12 323

原创 python中items、enumerate、zip以及dataframe的iterrows的用法

dt = {'Google': 'www.google.com', 'Runoob': 'www.runoob.com', 'taobao': 'www.taobao.com'}print ("字典值 : %s" % dt.items())# 遍历字典列表for key,values in dt.items(): print ("字典的键位"+key+"字典的值为"+values)输出结果为：字典值 : dict_items([('Google', 'www.google.com')

2020-08-03 20:38:42 1295

原创 spark官方文档中o和c的含义

c表示是一个class类o表示是一个object单例对象(java的static静态方法)t表示trait特质(java的抽象类)p表示package包

2020-08-01 21:05:43 270

原创 mkString的用法

a=Range(0,1,2,3,4,5)a为一个可迭代的对象a.mkString(",")结果为：0,1,2,3,4,5

2020-07-27 16:44:17 1177

原创在配置zookeeper集群的时候提示Error contacting service. It is probably not running.

在配置zookeeper集群的时候，我使用的是三台机器，首先进入conf文件中使用vim zoo.cfg进去配置文件,修改数据文件的位置为dataDir=/home/hao/Pictures/zookeeper-3.4.14/my_zoo_data然后添加集群信息server.1=node1:2888:3888server.2=node2:2888:3888server.3=node3:2888:3888然后进入my_zoo_data文件当中使用vim myid然后在里面添加se

2020-07-08 18:56:13 317

原创 Scala关联源码

将Scala-sources-2.12.4.tar.gz拷贝到Scala的lib目录下，然后解压两次，然后进行attach关联即可

2020-07-02 14:14:54 324

原创在idea使用CTRL+鼠标左键查看Scala源码显示decompile to java和choose source

只能选择反编译到Java或者选择源码两种选择，在网上找了半天都没有结果，只是有一篇说是到https://github.com/apache/spark/tree/branch-2.0下载源码包，于是我就下载了对应的源码包，接下来文章里面说直接新建工程，但是我也是使用那种方法，但是感觉结果就是单纯的看源码，并不是自己想要的结果，使用CTRL+鼠标左键就能看到相应的源码，终于在最后要放弃的时候，自己想到了，我可以查看这个刚下载的文件里面是否有.scala相应的源码包，发现真的有，然后我就点击上面的choo.

2020-06-25 15:04:04 1860 2

winutils-master.rar

空空如也