自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

转载 Python3.7.4安装

1.下载:wgethttps://www.python.org/ftp/python/3.7.4/Python-3.7.4.tgz解压:tar zxvfPython-3.7.4.tgzcdPython-3.7.4.tgz./configuremake allyum install libffi-develmake installmake clean...

2019-09-18 18:05:00 2007

转载 elasticsearch常用请求

1.打开集群transport请求日志高版本curl -H "Content-Type: application/json" -XPUT 'http://localhost:9200/_cluster/settings' -d '{ "transient" : { "logger.org.elasticsearch.transport.TransportService.trace...

2019-09-12 17:33:00 169

转载 elasticsearch常用查询

1.班级学生求每个学生的平均分 学生分数为string类型,需要在聚合时转换为float通过script转换类型{"fields":["data"],"query":{"bool":{"must":[{"range":{"class_id":{"from":1}}}]}},"aggs":{"stu_id":{"terms":{"field":"stu_id","size":600...

2019-09-12 15:22:00 120

转载 python安装pip模块

curl https://bootstrap.pypa.io/ez_setup.py | python#对应Python版本wget https://files.pythonhosted.org/packages/c8/89/ad7f27938e59db1f0f55ce214087460f65048626e2226531ba6cb6da15f0/pip-19.0.1.tar.gzpyth...

2019-01-25 15:48:00 183

转载 spark-kafka-es交互 优化

import org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spark.streaming.Secondsimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.ka...

2018-12-27 18:52:00 131

转载 scala写文件

1.FileWriterimport java.io.FileWriter val out = new FileWriter("/root/test/test.txt",true) for (i <- 0 to 15){ out.write(i.toString) out.close()}true是在文件末尾追加写入,默认为false,从文件开头重新写,如果之前有...

2018-11-30 18:54:00 312

转载 python unittest

组成:TestCase,TestSuite,TestRunner,TestFixtureTestCase:一个测试用例,一个完整的测试流程TestSuite:多个测试用例的集合,可以嵌套TestLoader:加载TestCase到TestSuite中TextTestRunner:执行测试用例关于输出的几点说明:1、在第一行给出了每一个用例执行的结果的标识,成...

2018-11-15 16:26:00 110

转载 scala collection(集合)

1.元祖(t)不可变,包含不同类型元素1)支持最大长度:222)访问:t._1,t._2 访问1,2个元素3)迭代元祖:tuple.productIrerator()4)tuple.toString() 将所有元素组合成字符串5)Tuple.swap交换元组元素2.列表(list)所有元素类型都相同,列表不可变,值一旦定义不能改变,具有递归结构1)声明...

2018-11-15 15:33:00 104

转载 spark-kafka-es交互

import org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spark.streaming.Secondsimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.stre...

2018-11-14 18:56:00 156

转载 scala语法

1.查看变量类型:a.getClass.getSimpleName //a未知变量2.基本语法:1)区分大小写2)类名:类名第一个字母大写3)方法名称:第一个字母小写4)程序文件名:与对象名称完全匹配5)def main(args:Array[String]):从main()方法开始处理3.标识符:两种形态:字符数字和符号4.调用包import...

2018-11-08 17:00:00 85

转载 spark-streaming-kafka交互问题

name := "test"version := "0.0.2"scalaVersion := "2.11.8"val sparkVersion = "2.2.0"libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "2.2.0"// % ProvidedlibraryDependenci...

2018-11-06 17:33:00 164

转载 es6.3新功能

1.lucene 6+支持磁盘占用减少50%,索引时间减少50%,查询性能提升25%2.聚合查询支持缓存,数据无变化情况下。3.scroll查询,优化分页查询性能,可用于提高接口性能,可划分多个slice请求4.profile Api ,search agg查询调优,监控查询性能消耗5.shrink api 分片可以收缩为其因数6.reindex:数据迁移7....

2018-09-19 19:13:00 92

转载 linux常用命令

服务器互传文件:scp ./spark.master.tar.gz user@slave01:/home/hadoop解压消除目录tar -xvf eg.tar --strip-components 3 //参数:第几级目录转载于:https://www.cnblogs.com/supermanwx/p/9242185.html...

2018-06-29 10:30:00 67

转载 spark streaming

<转>1、KafkaUtils.createDstream构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] )使用了receivers来接收数据,利用的是Kafka高层次的消费者api,对于所有的receivers接收到的数据将会保存在spark ...

2018-06-28 19:47:00 87

转载 hadoop配置相关

ssh localhost 生成秘钥之后无法无密码登录:chmod g-w authorized_keys 修改权限即可登录转载于:https://www.cnblogs.com/supermanwx/p/9210066.html

2018-06-21 17:17:00 70

转载 hadoop常用命令

hadoop fs -ls file:/// :列出本地文件系统根目录下的文件hadoop fsck / -files -blocks:显示文件系统中各个文件由哪些块组成hadoop fs -copyFromLocal localpath/filename /hdfspath/filename 将本地文件复制到hdfshadoop fs -copyToLocal /hdfs...

2018-06-06 11:55:00 57

转载 hadoop

1.hdfs(hadoop distributed file system):1)超大文件2)流式数据访问:一次写入,多次读取。通常由数据源生成或者从数据源复制而来。3)商用硬件:对节点出错的自动容错4)低时间延迟的数据访问 不适合低时间延迟的数据访问。hdfs为高数据吞吐量应用优化,提高时间延迟为代价。对于低延迟的访问需求,hbase更加适合5)大量的...

2018-06-01 19:10:00 85

转载 常用安装

pip安装:wget https://bootstrap.pypa.io/get-pip.pypython get-pip.py转载于:https://www.cnblogs.com/supermanwx/p/9112237.html

2018-05-30 17:36:00 80

转载 rdd相关

RDD(Resilient Distributed Dataset) 弹性分布式数据集不可变的分布式对象集合,每个RDD被分为多个分区,分区运行在集群中的不同节点上。1.创建方法:1)读取外部数据集2)驱动器程序里分发驱动器程序中的对象集合(list/set)调用示例:import org.apache.spark.SparkContextimport org...

2018-05-30 15:38:00 93

转载 spark安装

1.升级python2.7(python2.7.3)wget http://python.org/ftp/python/2.7.3/Python-2.7.15.tar.bz2 tar -jxvf Python-2.7.15.tar.bz2 cd Python-2.7.15./configure make all make install make clean ...

2018-05-25 20:04:00 63

转载 psutil

pip install psutilpsutil.pids() #显示系统全部进程p = psutil.Process(pid)p.name() #进程名 p.exe() #进程的bin路径 p.cwd() #进程的工作目录绝对路径 p.status() #进程状态 p.create_time() #进程创建时间 p.uids() #进程uid信息 ...

2018-05-21 15:35:00 337

转载 scala linux终端高亮显示

第一步,执行下面这个脚本:mkdir -p ~/.vim/{ftdetect,indent,syntax} && for d in ftdetect indent syntax ; do curl -o ~/.vim/$d/scala.vim https://raw.githubusercontent.com/gchen/scala.vim/master/scala....

2018-05-21 11:41:00 168

转载 fp-growth算法

1.对1项集求支持度(计数)2.将计数(频度)低于最小值的过滤掉,将剩下的一项集排序(降序)3.参照排序后的一项集将初始的数据集依次排序4.将排好序的数据集从根节点开始建树,根节点初始化为空5.建树的过程中对经过的节点进行计数,得到节点带权重的多叉树6.对每个节点从节点开始向祖先节点遍历,将祖先节点的权重变成子节点的数量(开始的叶子节点),将权重低于该子节点的去掉。...

2018-04-10 18:05:00 120

转载 Apriori算法

中心思想:频繁度高的项对应的子项频繁度也高,频繁度低的项对应子项频繁度也低对子项求频繁度,选择频繁度高的子项求其所在项的频繁度。1.求出单个属性的频繁度,过滤低于最小频繁度的项2.求出两个项的频繁度,过滤低于最小频繁度的项3.优化聚合,将两个项的数据分别选择第一项相同的值进行聚合,得到三项数据,过滤低于最小频繁度的项以此类推转载于:https://www.cn...

2018-04-10 17:47:00 89

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除