自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 收藏
  • 关注

转载 Scrapy数据获取方式

response的属性# 返回请求的urlresponse.url# 返回请求的状态码response.status# 返回携带的meta数据response.meta# 返回响应头的信息response.headers# 返回结对urlresponse.urljoinresponse的选择器xpath选择器# 使用获取a标签,取第1个获取的标签,使用e...

2019-09-17 16:24:00 242

转载 Storm伪分布式配置

配置zookeeper教程链接: https://www.cnblogs.com/studyNotesSL/p/11517477.html配置Strom# 进入Strom的tar包目录解压,重名名文件tar -zxvf apache-storm-0.9.7.tar.gzmv apache-storm-0.9.7 /opt/storm/storm0.9.7配置环境变量vi /...

2019-09-17 16:22:00 218

转载 Windows10系统启用Telnet详细教程

https://jingyan.baidu.com/article/3ea51489ba79e252e61bba97.html转载于:https://www.cnblogs.com/studyNotesSL/p/11517730.html

2019-09-13 21:38:00 1234

转载 Flume伪分布式配置

配置Flumetar -zxvf apache-flume-1.8.0-bin.tar.gzmkdir /opt/flume/mv apache-flume-1.8.0-bin.tar.gz /opt/flume/flume1.8.0/配置环境变量vim /etc/profileexport FLUME_HOME=/opt/flume/flume1.8.0export F...

2019-09-13 19:33:00 235

转载 Hbase伪分布式配置

Hbase配置tar -zxvf hbase-1.2.6-bin.tar.gzmkdir /opt/hbasemv hbase-1.2.6 /opt/hbase/hbase1.2.6# 配置环境变量vim /etc/profile# HBase Configexport HBASE_HOME=/opt/hbase/hbase1.2.6# PATH configex...

2019-09-13 19:31:00 224

转载 Zookeeper伪分布式配置

解压文件tar -zxvf zookeeper-3.4.10.tar.gzmv zookeeper-3.4.10 /opt/zookeeper/zookeeper3.4修改配置文件cd /opt/zookeeper/zookeeper3.4/cp conf/zoo_sample.cfg conf/zoo_1.cfgvi conf/zoo_1.cfg dataDir=/o...

2019-09-13 19:28:00 63

转载 Actor和AKKA的使用

添加需要的maven依赖<dependency> <groupId>com.typesafe</groupId> <artifactId>ssl-config-akka_2.11</artifactId> <version>0.1.2</version></depende...

2019-09-05 10:24:00 309

转载 内部类

内部类package base// App重写了main方法 可以直接运行IClassobject IClass extends App { //调用外部类中的内部类对象 val ic1 = new OuterClass().InnerObject println("y = " + ic1.y) // 创建外部类实例 val oc = new OuterC...

2019-09-01 21:45:00 58

转载 类和trait

修饰控制符package baseobject obj { def main(args: Array[String]): Unit = { // 调用无参构造方法 val ps = new Person() println(ps.name) val person = new Person("小明") person.name = "小张...

2019-09-01 21:44:00 92

转载 函数式编程

函数作为值传递scala> def fun1(field: String,field1: String) = println(s"fun1 field = $field, field1 = $field1")fun1: (field: String, field1: String)Unitscala> def fun2 = fun1 _fun2: (String, ...

2019-09-01 21:42:00 79

转载 泛型和隐式转换

泛型泛型类 [T]def main(args: Array[String]): Unit = { // 通过传递的参数自动推断泛型类型 (参数中用到了所有的泛型) val s1 = new Student("丽萨",1) // 直接指定泛型类型 val s2 = new Student[String,Int]("明明",2) // 指定参数类...

2019-09-01 21:41:00 155

转载 单例模式

单例:希望某个类只存在一个使用的对象,而不管有多少个调用者在使用它,就是单例的概念。package baseobject Singleton extends App { val aloneC1 = AloneObj.getAloneCInstance val aloneC2 = AloneObj.getAloneCInstance aloneC1.addOne ...

2019-09-01 21:40:00 51

转载 伴生类和伴生对象

// 伴生对象object Ass{}// 伴生类class Ass{}要求: 伴生类和伴生对象要在同一个.scala文件并且名字相同Java的静态成员和非静态成员都写在一个类里. 而scala静态成员需要写写在伴生对象里面.伴生类需要用 new 来创建,而伴生对象不用new.使用伴生对象创建伴生类的实例需要定义apply()方法package baseo...

2019-09-01 21:39:00 608

转载 Lazy

Lazy特性当val被声明为lazy时,它的初始化将被推迟,直到我们首次对它使用时才初始化。Lazy编译时不会初始化变量,所有异常也只有使用时才能发现,如:文件不存在的异常。节省不必要的资源加载,适用使用可能性不大的资源定义。scala> lazy val result = 5/0result: Int = <lazy>// 本来编译时会就会报的错la...

2019-08-30 06:18:00 87

转载 def 方法

scala def 方法def 方法名(参数): 返回类型 = {方法体}def fun(name: String): String = { val info = "hello "+ name // 返回值,代码块的最后一行代码的值,不用写return info}// 方法调用println(fun("小李"))hello 小李方法创建方...

2019-08-30 06:17:00 1733

转载 异常

异常try { val result = 5 / 0 println("---->")} catch { case e: Exception => e.printStackTrace() case _ => println("other Exception!")} finally { println("end")}jav...

2019-08-30 06:16:00 118

转载 循环

循环while 略forval arr = Array(1 to 5:_*)for(i <- arr){println(i)}12345for(i <- 1 to 3; j <- 4 to 6){println(s"i=$i j=$j")}i=1 j=4i=1 j=5i=1 j=6i=2 j=4i=2 j=5i=2 j=6i=3...

2019-08-30 06:16:00 74

转载 输入输出

输入scala> import scala.io.StdIn._import scala.io.StdIn._scala> val a = readreadBoolean readByte readChar readDouble readFloat readInt readLine readLong readShortscala&...

2019-08-30 06:15:00 174

转载 集合

数组定长数组scala> val arr = new Array[String](10)arr: Array[String] = Array(null, null, null, null, null, null, null, null, null, null)scala> val arr = new Array[Int](10)arr: Array[Int] =...

2019-08-30 06:13:00 76

转载 共享变量

默认情况下,如果在一个算子函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。Spark为此提供了两种共享变量,一种是Broadcast Variable(广播变量),另一种是Accumulator(累加变量)。Broadcast Variable会将使用到的变量,...

2019-08-30 06:12:00 203

转载 数据类型

1、都是基于JVM虚拟机运行的Scala编译之后的文件也是.class,都要转换为字节码,然后运行在JVM虚拟机之上。2、Scala和Java相互调用在Scala中可以直接调用Java的代码,同时在Java中也可以直接调用Scala的代码数据类型// scala比较的是两边的值,不是地址scala> ("he"+"llo") == "hello"res0: B...

2019-08-30 06:06:00 70

转载 kafka使用

启动zookeeperbin/zookeeper-server-start.sh config/zookeeper.properties &启动kafkabin/kafka-server-start.sh config/server.properties &停止kafkabin/kafka-server-stop.sh停止zookeeperbin/...

2019-08-27 18:53:00 51

转载 Sqoop使用

说明导入:从其他数据源写入"hdfs"导出:从"hdfs"写入到其他存储设施表名和字段不能有中文MySQL –> HDFS导入整个数据表 (默认使用MySQL的3306端口)sqoop import --connect jdbc:mysql://172.16.1.150/mysql --username root --password 123456 --table zh...

2019-08-27 18:53:00 67

转载 Hive使用

数据库操作创建数据库create database if not exists hive; 查看存在的数据库show databases;查看以 "h" 开头的数据库show databases like 'h.*'; #查看hive数据库位置等信息describe databases;删除不包含表的数据库drop database if exists hiv...

2019-08-27 18:52:00 115

转载 Hbase使用

Hbase常用命令:https://www.cnblogs.com/shadowalker/p/7350484.html转载于:https://www.cnblogs.com/studyNotesSL/p/11420157.html

2019-08-27 18:49:00 55

转载 Flume使用

flume架构介绍flume之所以这么神奇,是源于它自身的一个设计,这个设计就是agent,agent本身是一个Java进程,运行在日志收集节点—所谓日志收集节点就是服务器节点。agent里面包含3个核心的组件:source—->channel—–>sink,类似生产者、仓库、消费者的架构。source:source组件是专门用来收集数据的,可以处理各种类型、各种格式的...

2019-08-27 18:48:00 125

转载 分布式集群搭建大全

系统准备Centos6.5Windows10相关软件包下载:链接:https://pan.baidu.com/s/1EOLUphwZgzwSX01HsDJM0g提取码:1tsf说明特别说明: 教程用的主机名分别为master,slave1,slave2 所以发现有出现主机名为 ” spark1”的主机名等同于 “master”如果如果看见配置文件为spark1,一定要修改...

2019-08-27 12:36:00 323

转载 Python正则表达式

正则表达式基本符号使用>>> import re>>> re.findall(r'a.','abc')['ab']>>> re.findall(r'^ab','abc')['ab']>>> re.findall(r'bc$','abc')['bc']>>> re.findall...

2019-08-27 11:15:00 163

转载 xpath的使用

安装lxml库pip --default-timeout=100 install lxml -i http://pypi.douban.com/simple --trusted-host pypi.douban.comrequests和xpath的使用from lxml import etree import requestsheaders = {'User-Agent' ...

2019-08-27 11:13:00 76

转载 BeautifulSoup的使用

安装bs4库pip --default-timeout=100 install bs4 -i http://pypi.douban.com/simple --trusted-host pypi.douban.comrequest和BeautifulSoup组合使用from bs4 import BeautifulSoup #导入BeautifulSoup包import requ...

2019-08-27 11:12:00 95

转载 requests的使用

安装request库pip --default-timeout=100 install requests -i http://pypi.douban.com/simple --trusted-host pypi.douban.com简单案例import requestsurl = "http://www.baidu.com"headers = { 'User-Age...

2019-08-27 11:11:00 117

转载 MongoDB

数据表的导出和导入: https://blog.csdn.net/wangmx1993328/article/details/82663617转载于:https://www.cnblogs.com/studyNotesSL/p/11409684.html

2019-08-25 22:21:00 42

转载 yarn的两种提交方式原理

Yarn-cluster 和 Yarn-client比较Yarn-client: 用于测试,Driver在本地可以看到所有的log方便调试。但是和yarn通信流量过大。Yarn-cluster:用于生产环境,查看log不方便。转载于:https://www.cnblogs.com/studyNotesSL/p/11409622.html...

2019-08-25 22:06:00 162

转载 Stage划分原理

将窄依赖关系的尽量划分到一个Stage里面,来实现流水线计算提高效率。转载于:https://www.cnblogs.com/studyNotesSL/p/11409614.html

2019-08-25 22:05:00 1101

转载 Spark转换和动作算子

Transformation算子只会记录RDD的转换过程但不会真正执行,只有遇到Action算子才会从头依次执行前面的算子。转载于:https://www.cnblogs.com/studyNotesSL/p/11409606.html...

2019-08-25 22:03:00 427

转载 Spark运行原理

转载于:https://www.cnblogs.com/studyNotesSL/p/11409601.html

2019-08-25 22:02:00 63

转载 RDD之间的关系原理

窄依赖可以进行fork-join流水线优化,宽依赖不行。划分阶段也是根据宽依赖和窄依赖划分。转载于:https://www.cnblogs.com/studyNotesSL/p/11409597.html

2019-08-25 22:01:00 140

转载 Scrapy数据持久化

piplines的使用取消setings.py文件内管道的注释,开启数据管道,使得爬取到的数据可以传送过来。初始代码解释利用重写spider的方法实现功能# 初始化SpiderdmPipeline类时调用一次def __init__(self): # 创建数据库的连接对象 # 数据表的创建 pass# 启动爬虫时调用一次def open_sp...

2019-08-25 21:50:00 262

转载 ScrapySpider的使用

设置控制台打印的Log等级# setings文件# 设置只打印warning以上等级的日志信息LOG_LEVEL = 'WARNING'在在爬虫主文件写爬取代码,使用scrapy.Request请求。# baiduSpider.py文件import scrapyfrom spiderDM.items import SpiderdmItemclass Baidus...

2019-08-25 21:50:00 133

转载 Scrapy安装和项目创建

安装说明scrapy安装需要安装一些第三方依赖库,依赖库的安装与需要和Python版本,Windows位数,所需的电脑插件有关。参考信息:Python3.6,Windows10 64位相关软件下载:链接:https://pan.baidu.com/s/1Vzx8GGeojmUzMSZExJac4w提取码:jv54环境准备安装 Microsoft Visual C++ 14....

2019-08-25 21:49:00 416

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除