asd547249091-CSDN博客

转载 Scrapy数据获取方式

response的属性# 返回请求的urlresponse.url# 返回请求的状态码response.status# 返回携带的meta数据response.meta# 返回响应头的信息response.headers# 返回结对urlresponse.urljoinresponse的选择器xpath选择器# 使用获取a标签，取第1个获取的标签，使用e...

2019-09-17 16:24:00 245

转载 Storm伪分布式配置

配置zookeeper教程链接: https://www.cnblogs.com/studyNotesSL/p/11517477.html配置Strom# 进入Strom的tar包目录解压,重名名文件tar -zxvf apache-storm-0.9.7.tar.gzmv apache-storm-0.9.7 /opt/storm/storm0.9.7配置环境变量vi /...

2019-09-17 16:22:00 223

转载 Windows10系统启用Telnet详细教程

https://jingyan.baidu.com/article/3ea51489ba79e252e61bba97.html转载于:https://www.cnblogs.com/studyNotesSL/p/11517730.html

2019-09-13 21:38:00 1237

转载 Flume伪分布式配置

配置Flumetar -zxvf apache-flume-1.8.0-bin.tar.gzmkdir /opt/flume/mv apache-flume-1.8.0-bin.tar.gz /opt/flume/flume1.8.0/配置环境变量vim /etc/profileexport FLUME_HOME=/opt/flume/flume1.8.0export F...

2019-09-13 19:33:00 238

转载 Hbase伪分布式配置

Hbase配置tar -zxvf hbase-1.2.6-bin.tar.gzmkdir /opt/hbasemv hbase-1.2.6 /opt/hbase/hbase1.2.6# 配置环境变量vim /etc/profile# HBase Configexport HBASE_HOME=/opt/hbase/hbase1.2.6# PATH configex...

2019-09-13 19:31:00 230

转载 Zookeeper伪分布式配置

解压文件tar -zxvf zookeeper-3.4.10.tar.gzmv zookeeper-3.4.10 /opt/zookeeper/zookeeper3.4修改配置文件cd /opt/zookeeper/zookeeper3.4/cp conf/zoo_sample.cfg conf/zoo_1.cfgvi conf/zoo_1.cfg dataDir=/o...

2019-09-13 19:28:00 71

转载 Actor和AKKA的使用

添加需要的maven依赖<dependency> <groupId>com.typesafe</groupId> <artifactId>ssl-config-akka_2.11</artifactId> <version>0.1.2</version></depende...

2019-09-05 10:24:00 315

转载内部类

内部类package base// App重写了main方法可以直接运行IClassobject IClass extends App { //调用外部类中的内部类对象 val ic1 = new OuterClass().InnerObject println("y = " + ic1.y) // 创建外部类实例 val oc = new OuterC...

2019-09-01 21:45:00 61

转载类和trait

修饰控制符package baseobject obj { def main(args: Array[String]): Unit = { // 调用无参构造方法 val ps = new Person() println(ps.name) val person = new Person("小明") person.name = "小张...

2019-09-01 21:44:00 95

转载函数式编程

函数作为值传递scala> def fun1(field: String,field1: String) = println(s"fun1 field = $field, field1 = $field1")fun1: (field: String, field1: String)Unitscala> def fun2 = fun1 _fun2: (String, ...

2019-09-01 21:42:00 82

转载泛型和隐式转换

泛型泛型类 [T]def main(args: Array[String]): Unit = { // 通过传递的参数自动推断泛型类型 (参数中用到了所有的泛型) val s1 = new Student("丽萨",1) // 直接指定泛型类型 val s2 = new Student[String,Int]("明明",2) // 指定参数类...

2019-09-01 21:41:00 157

转载单例模式

单例：希望某个类只存在一个使用的对象，而不管有多少个调用者在使用它，就是单例的概念。package baseobject Singleton extends App { val aloneC1 = AloneObj.getAloneCInstance val aloneC2 = AloneObj.getAloneCInstance aloneC1.addOne ...

2019-09-01 21:40:00 54

转载伴生类和伴生对象

// 伴生对象object Ass{}// 伴生类class Ass{}要求: 伴生类和伴生对象要在同一个.scala文件并且名字相同Java的静态成员和非静态成员都写在一个类里. 而scala静态成员需要写写在伴生对象里面.伴生类需要用 new 来创建,而伴生对象不用new.使用伴生对象创建伴生类的实例需要定义apply()方法package baseo...

2019-09-01 21:39:00 617

转载 Lazy

Lazy特性当val被声明为lazy时，它的初始化将被推迟，直到我们首次对它使用时才初始化。Lazy编译时不会初始化变量,所有异常也只有使用时才能发现，如：文件不存在的异常。节省不必要的资源加载，适用使用可能性不大的资源定义。scala> lazy val result = 5/0result: Int = <lazy>// 本来编译时会就会报的错la...

2019-08-30 06:18:00 89

转载 def 方法

scala def 方法def 方法名(参数): 返回类型 = {方法体}def fun(name: String): String = { val info = "hello "+ name // 返回值,代码块的最后一行代码的值,不用写return info}// 方法调用println(fun("小李"))hello 小李方法创建方...

2019-08-30 06:17:00 1744

转载异常

异常try { val result = 5 / 0 println("---->")} catch { case e: Exception => e.printStackTrace() case _ => println("other Exception!")} finally { println("end")}jav...

2019-08-30 06:16:00 120

转载循环

循环while 略forval arr = Array(1 to 5:_*)for(i <- arr){println(i)}12345for(i <- 1 to 3; j <- 4 to 6){println(s"i=$i j=$j")}i=1 j=4i=1 j=5i=1 j=6i=2 j=4i=2 j=5i=2 j=6i=3...

2019-08-30 06:16:00 80

转载输入输出

输入scala> import scala.io.StdIn._import scala.io.StdIn._scala> val a = readreadBoolean readByte readChar readDouble readFloat readInt readLine readLong readShortscala&...

2019-08-30 06:15:00 180

转载集合

数组定长数组scala> val arr = new Array[String](10)arr: Array[String] = Array(null, null, null, null, null, null, null, null, null, null)scala> val arr = new Array[Int](10)arr: Array[Int] =...

2019-08-30 06:13:00 81

转载共享变量

默认情况下，如果在一个算子函数中使用到了某个外部的变量，那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量，那么这种方式是做不到的。Spark为此提供了两种共享变量，一种是Broadcast Variable（广播变量），另一种是Accumulator（累加变量）。Broadcast Variable会将使用到的变量，...

2019-08-30 06:12:00 207

转载数据类型

1、都是基于JVM虚拟机运行的Scala编译之后的文件也是.class，都要转换为字节码，然后运行在JVM虚拟机之上。2、Scala和Java相互调用在Scala中可以直接调用Java的代码，同时在Java中也可以直接调用Scala的代码数据类型// scala比较的是两边的值,不是地址scala> ("he"+"llo") == "hello"res0: B...

2019-08-30 06:06:00 74

转载 kafka使用

启动zookeeperbin/zookeeper-server-start.sh config/zookeeper.properties &启动kafkabin/kafka-server-start.sh config/server.properties &停止kafkabin/kafka-server-stop.sh停止zookeeperbin/...

2019-08-27 18:53:00 55

转载 Sqoop使用

说明导入：从其他数据源写入"hdfs"导出：从"hdfs"写入到其他存储设施表名和字段不能有中文MySQL –> HDFS导入整个数据表 (默认使用MySQL的3306端口)sqoop import --connect jdbc:mysql://172.16.1.150/mysql --username root --password 123456 --table zh...

2019-08-27 18:53:00 69

转载 Hive使用

数据库操作创建数据库create database if not exists hive; 查看存在的数据库show databases;查看以 "h" 开头的数据库show databases like 'h.*'; #查看hive数据库位置等信息describe databases;删除不包含表的数据库drop database if exists hiv...

2019-08-27 18:52:00 120

转载 Hbase使用

Hbase常用命令：https://www.cnblogs.com/shadowalker/p/7350484.html转载于:https://www.cnblogs.com/studyNotesSL/p/11420157.html

2019-08-27 18:49:00 59

转载 Flume使用

flume架构介绍flume之所以这么神奇，是源于它自身的一个设计，这个设计就是agent，agent本身是一个Java进程，运行在日志收集节点—所谓日志收集节点就是服务器节点。agent里面包含3个核心的组件：source—->channel—–>sink,类似生产者、仓库、消费者的架构。source：source组件是专门用来收集数据的，可以处理各种类型、各种格式的...

2019-08-27 18:48:00 130

转载分布式集群搭建大全

系统准备Centos6.5Windows10相关软件包下载：链接：https://pan.baidu.com/s/1EOLUphwZgzwSX01HsDJM0g提取码：1tsf说明特别说明: 教程用的主机名分别为master,slave1,slave2 所以发现有出现主机名为 ” spark1”的主机名等同于 “master”如果如果看见配置文件为spark1,一定要修改...

2019-08-27 12:36:00 330

转载 Python正则表达式

正则表达式基本符号使用>>> import re>>> re.findall(r'a.','abc')['ab']>>> re.findall(r'^ab','abc')['ab']>>> re.findall(r'bc$','abc')['bc']>>> re.findall...

2019-08-27 11:15:00 169

转载 xpath的使用

安装lxml库pip --default-timeout=100 install lxml -i http://pypi.douban.com/simple --trusted-host pypi.douban.comrequests和xpath的使用from lxml import etree import requestsheaders = {'User-Agent' ...

2019-08-27 11:13:00 87

转载 BeautifulSoup的使用

安装bs4库pip --default-timeout=100 install bs4 -i http://pypi.douban.com/simple --trusted-host pypi.douban.comrequest和BeautifulSoup组合使用from bs4 import BeautifulSoup #导入BeautifulSoup包import requ...

2019-08-27 11:12:00 99

转载 requests的使用

安装request库pip --default-timeout=100 install requests -i http://pypi.douban.com/simple --trusted-host pypi.douban.com简单案例import requestsurl = "http://www.baidu.com"headers = { 'User-Age...

2019-08-27 11:11:00 121

转载 MongoDB

数据表的导出和导入: https://blog.csdn.net/wangmx1993328/article/details/82663617转载于:https://www.cnblogs.com/studyNotesSL/p/11409684.html

2019-08-25 22:21:00 49

转载 yarn的两种提交方式原理

Yarn-cluster 和 Yarn-client比较Yarn-client：用于测试，Driver在本地可以看到所有的log方便调试。但是和yarn通信流量过大。Yarn-cluster：用于生产环境，查看log不方便。转载于:https://www.cnblogs.com/studyNotesSL/p/11409622.html...

2019-08-25 22:06:00 172

转载 Stage划分原理

将窄依赖关系的尽量划分到一个Stage里面，来实现流水线计算提高效率。转载于:https://www.cnblogs.com/studyNotesSL/p/11409614.html

2019-08-25 22:05:00 1111

转载 Spark转换和动作算子

Transformation算子只会记录RDD的转换过程但不会真正执行，只有遇到Action算子才会从头依次执行前面的算子。转载于:https://www.cnblogs.com/studyNotesSL/p/11409606.html...

2019-08-25 22:03:00 434

转载 Spark运行原理

转载于:https://www.cnblogs.com/studyNotesSL/p/11409601.html

2019-08-25 22:02:00 67

转载 RDD之间的关系原理

窄依赖可以进行fork-join流水线优化，宽依赖不行。划分阶段也是根据宽依赖和窄依赖划分。转载于:https://www.cnblogs.com/studyNotesSL/p/11409597.html

2019-08-25 22:01:00 141

转载 Scrapy数据持久化

piplines的使用取消setings.py文件内管道的注释，开启数据管道，使得爬取到的数据可以传送过来。初始代码解释利用重写spider的方法实现功能# 初始化SpiderdmPipeline类时调用一次def __init__(self): # 创建数据库的连接对象 # 数据表的创建 pass# 启动爬虫时调用一次def open_sp...

2019-08-25 21:50:00 265

转载 ScrapySpider的使用

设置控制台打印的Log等级# setings文件# 设置只打印warning以上等级的日志信息LOG_LEVEL = 'WARNING'在在爬虫主文件写爬取代码，使用scrapy.Request请求。# baiduSpider.py文件import scrapyfrom spiderDM.items import SpiderdmItemclass Baidus...

2019-08-25 21:50:00 142

转载 Scrapy安装和项目创建

安装说明scrapy安装需要安装一些第三方依赖库，依赖库的安装与需要和Python版本，Windows位数，所需的电脑插件有关。参考信息：Python3.6，Windows10 64位相关软件下载：链接：https://pan.baidu.com/s/1Vzx8GGeojmUzMSZExJac4w提取码：jv54环境准备安装 Microsoft Visual C++ 14....

2019-08-25 21:49:00 421

空空如也

空空如也