dingzhou8124-CSDN博客

转载 Python3.7.4安装

1.下载：wgethttps://www.python.org/ftp/python/3.7.4/Python-3.7.4.tgz解压：tar zxvfPython-3.7.4.tgzcdPython-3.7.4.tgz./configuremake allyum install libffi-develmake installmake clean...

2019-09-18 18:05:00 2107

转载 elasticsearch常用请求

1.打开集群transport请求日志高版本curl -H "Content-Type: application/json" -XPUT 'http://localhost:9200/_cluster/settings' -d '{ "transient" : { "logger.org.elasticsearch.transport.TransportService.trace...

2019-09-12 17:33:00 195

转载 elasticsearch常用查询

1.班级学生求每个学生的平均分学生分数为string类型，需要在聚合时转换为float通过script转换类型{"fields":["data"],"query":{"bool":{"must":[{"range":{"class_id":{"from":1}}}]}},"aggs":{"stu_id":{"terms":{"field":"stu_id","size":600...

2019-09-12 15:22:00 142

转载 python安装pip模块

curl https://bootstrap.pypa.io/ez_setup.py | python#对应Python版本wget https://files.pythonhosted.org/packages/c8/89/ad7f27938e59db1f0f55ce214087460f65048626e2226531ba6cb6da15f0/pip-19.0.1.tar.gzpyth...

2019-01-25 15:48:00 216

转载 spark-kafka-es交互优化

import org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spark.streaming.Secondsimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.ka...

2018-12-27 18:52:00 146

转载 scala写文件

1.FileWriterimport java.io.FileWriter val out = new FileWriter("/root/test/test.txt",true) for (i <- 0 to 15){ out.write(i.toString) out.close()}true是在文件末尾追加写入，默认为false,从文件开头重新写，如果之前有...

2018-11-30 18:54:00 342

转载 python unittest

组成：TestCase,TestSuite,TestRunner,TestFixtureTestCase：一个测试用例，一个完整的测试流程TestSuite：多个测试用例的集合，可以嵌套TestLoader：加载TestCase到TestSuite中TextTestRunner：执行测试用例关于输出的几点说明：1、在第一行给出了每一个用例执行的结果的标识，成...

2018-11-15 16:26:00 124

转载 scala collection(集合)

1.元祖(t)不可变，包含不同类型元素1）支持最大长度:222）访问：t._1，t._2 访问1,2个元素3）迭代元祖：tuple.productIrerator()4）tuple.toString() 将所有元素组合成字符串5）Tuple.swap交换元组元素2.列表(list)所有元素类型都相同，列表不可变，值一旦定义不能改变，具有递归结构1）声明...

2018-11-15 15:33:00 127

转载 spark-kafka-es交互

import org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spark.streaming.Secondsimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.stre...

2018-11-14 18:56:00 174

转载 scala语法

1.查看变量类型：a.getClass.getSimpleName //a未知变量2.基本语法：1）区分大小写2）类名：类名第一个字母大写3）方法名称：第一个字母小写4）程序文件名：与对象名称完全匹配5）def main(args:Array[String])：从main()方法开始处理3.标识符：两种形态：字符数字和符号4.调用包import...

2018-11-08 17:00:00 104

转载 spark-streaming-kafka交互问题

name := "test"version := "0.0.2"scalaVersion := "2.11.8"val sparkVersion = "2.2.0"libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "2.2.0"// % ProvidedlibraryDependenci...

2018-11-06 17:33:00 191

转载 es6.3新功能

1.lucene 6+支持磁盘占用减少50%，索引时间减少50%，查询性能提升25%2.聚合查询支持缓存，数据无变化情况下。3.scroll查询，优化分页查询性能，可用于提高接口性能，可划分多个slice请求4.profile Api ,search agg查询调优，监控查询性能消耗5.shrink api 分片可以收缩为其因数6.reindex：数据迁移7....

2018-09-19 19:13:00 111

转载 linux常用命令

服务器互传文件：scp ./spark.master.tar.gz user@slave01:/home/hadoop解压消除目录tar -xvf eg.tar --strip-components 3 //参数：第几级目录转载于:https://www.cnblogs.com/supermanwx/p/9242185.html...

2018-06-29 10:30:00 78

转载 spark streaming

<转>1、KafkaUtils.createDstream构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] )使用了receivers来接收数据，利用的是Kafka高层次的消费者api，对于所有的receivers接收到的数据将会保存在spark ...

2018-06-28 19:47:00 100

转载 hadoop配置相关

ssh localhost 生成秘钥之后无法无密码登录:chmod g-w authorized_keys 修改权限即可登录转载于:https://www.cnblogs.com/supermanwx/p/9210066.html

2018-06-21 17:17:00 79

转载 hadoop常用命令

hadoop fs -ls file:/// ：列出本地文件系统根目录下的文件hadoop fsck / -files -blocks：显示文件系统中各个文件由哪些块组成hadoop fs -copyFromLocal localpath/filename /hdfspath/filename 将本地文件复制到hdfshadoop fs -copyToLocal /hdfs...

2018-06-06 11:55:00 65

转载 hadoop

1.hdfs(hadoop distributed file system):1）超大文件2）流式数据访问:一次写入，多次读取。通常由数据源生成或者从数据源复制而来。3）商用硬件：对节点出错的自动容错4）低时间延迟的数据访问不适合低时间延迟的数据访问。hdfs为高数据吞吐量应用优化，提高时间延迟为代价。对于低延迟的访问需求，hbase更加适合5）大量的...

2018-06-01 19:10:00 93

转载常用安装

pip安装:wget https://bootstrap.pypa.io/get-pip.pypython get-pip.py转载于:https://www.cnblogs.com/supermanwx/p/9112237.html

2018-05-30 17:36:00 95

转载 rdd相关

RDD(Resilient Distributed Dataset) 弹性分布式数据集不可变的分布式对象集合，每个RDD被分为多个分区，分区运行在集群中的不同节点上。1.创建方法：1）读取外部数据集2）驱动器程序里分发驱动器程序中的对象集合(list/set)调用示例:import org.apache.spark.SparkContextimport org...

2018-05-30 15:38:00 106

转载 spark安装

1.升级python2.7(python2.7.3)wget http://python.org/ftp/python/2.7.3/Python-2.7.15.tar.bz2 tar -jxvf Python-2.7.15.tar.bz2 cd Python-2.7.15./configure make all make install make clean ...

2018-05-25 20:04:00 75

转载 psutil

pip install psutilpsutil.pids() #显示系统全部进程p = psutil.Process(pid)p.name() #进程名 p.exe() #进程的bin路径 p.cwd() #进程的工作目录绝对路径 p.status() #进程状态 p.create_time() #进程创建时间 p.uids() #进程uid信息 ...

2018-05-21 15:35:00 372

转载 scala linux终端高亮显示

第一步，执行下面这个脚本：mkdir -p ~/.vim/{ftdetect,indent,syntax} && for d in ftdetect indent syntax ; do curl -o ~/.vim/$d/scala.vim https://raw.githubusercontent.com/gchen/scala.vim/master/scala....

2018-05-21 11:41:00 174

转载 fp-growth算法

1.对1项集求支持度（计数）2.将计数（频度）低于最小值的过滤掉，将剩下的一项集排序（降序）3.参照排序后的一项集将初始的数据集依次排序4.将排好序的数据集从根节点开始建树，根节点初始化为空5.建树的过程中对经过的节点进行计数，得到节点带权重的多叉树6.对每个节点从节点开始向祖先节点遍历，将祖先节点的权重变成子节点的数量（开始的叶子节点），将权重低于该子节点的去掉。...

2018-04-10 18:05:00 128

转载 Apriori算法

中心思想：频繁度高的项对应的子项频繁度也高，频繁度低的项对应子项频繁度也低对子项求频繁度，选择频繁度高的子项求其所在项的频繁度。1.求出单个属性的频繁度，过滤低于最小频繁度的项2.求出两个项的频繁度，过滤低于最小频繁度的项3.优化聚合，将两个项的数据分别选择第一项相同的值进行聚合，得到三项数据，过滤低于最小频繁度的项以此类推转载于:https://www.cn...

2018-04-10 17:47:00 91

dingzhou8124的博客