2018年01月_Knuth1989

12月 09月 06月 04月 03月 02月 01月

原创 Intellij IDEA 快捷键

1.psvm main函数2.sout System.out.println()3.Ctrl+X 删除行4.Ctrl+D 复制行5.Ctrl+/

2018-01-29 17:42:58 116

原创 intelliJ导入jar包

1. intelliJ导入jar包1）通过Modules的Dependencies添加：(推荐)打开 File -> Project Structure（Ctrl + Shift + Alt + S）2）单击 Modules -> Dependencies ->"+" -> "Jars or directories" 3）选择

2018-01-29 17:40:55 217

原创 python 小结2

1.如何判断一个对象是可迭代对象呢？方法是通过collections模块的Iterable类型判断：>>> from collections import Iterable>>> isinstance('abc', Iterable) # str是否可迭代True>>> isinstance([1,2,3], Iterable) # list是否可迭代True>>> isi

2018-01-29 17:38:07 123

原创 Python 小结

1.Python脚本运行出现语法错误：IndentationError: unindent does not match any outer indentation level 这个是代码没有对齐产生的错误2.class:（1）注意到__init__方法的第一个参数永远是self，表示创建的实例本身，因此，在__init__方法内部，就可以把各种属性绑定到self，因为self

2018-01-29 17:30:46 150

原创 ES 多channel、多sink

1.配置文件a1.sources = r1a1.sinks = k1 k2 k3a1.channels = c1 c2 c3# Describe/configure the sourcea1.sources.r1.type = jsyh.forward.source.kafka.KafkaSource#a1.sources.r1.statServiceType = appl

2018-01-29 17:28:54 288

原创 spark RDD

RDD 是Resilient Distributed Datasets简称，翻译成中文为“弹性分布式数据集”，这个语义揭示了RDD实质上是存储在不同节点计算机中的数据集。分布式存储最大的好处是可以让数据在不同的工作节点上并行存储，以便在需要数据的时候并行运算，从而获得最迅捷的运行效率。RDD名称的秘密Resilient 是弹性的意思。在Spark中，弹性指的是数据的存储方式，即

2018-01-29 16:53:27 186

原创 spark wordcount Java代码实现

import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.ap

2018-01-25 17:41:15 243

原创 linux 一些命令

1. 查看centos版本 [root@bigdata2 ~]# cat /etc/redhat-release CentOS Linux release 7.2.1511 (Core)2. 把test用户加入usertest组 #usermod -G usertest test ##多个组之间用空格隔开3.永久修改主机名 hostnamectl set-hos

2018-01-24 16:50:48 121

原创 Centos7开机启动ES5.4.2

Centos7开机启动ES5.4.2 1) 自己新建一个脚本,如start-elasticsearch.sh,内容如下: [root@bigdata1 home]# cat start-elasticsearch.sh #!/bin/bash su - es -c "/home/elasticsearch-5.4.2/bin

2018-01-24 16:46:47 1047

原创 matplotlib.plt使用

1.figure感觉就是给图像ID，之后可以索引定位到它。 import matplotlib.pyplot as plt plt.figure(1) #第一张图 plt.subplot(211) #第一张图中的第一张子图 plt.plot([1,2,3]) plt.subplot(212) #

2018-01-24 16:35:18 362

1.机器学习正是这样得一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法，即“学习算法”。有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型；在面对新的情况的时候，模型会给我们提供相应的判断。如果说计算机科学是研究关于“算法”的学问，那么类似

2018-01-24 15:47:25 1441

原创 palo小批量导入

palo小批量导入可以通过mysql client连接palo后，通过help mini load来查看：主要有如下几种方式 (1) 将本地文件'testData'中的数据导入到数据库'testDb'中'testTbl'的表（用户是defalut_cluster中的） curl --location-trusted -u root -T testDat

2018-01-24 15:02:28 762

原创 matplotlib图表中能够显示中文和负号

为了在图表中能够显示中文和负号等，需要下面一段设置:import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

2018-01-24 14:55:52 276

原创 CentOS 7下删除virbr0网卡信息

CentOS 7下删除virbr0网卡信息1）查看网络列表： [root@linux-node1 ~]# virsh net-list Name State Autostart Persistent ---------------------------------------------------------- default active

2018-01-24 14:54:06 724

原创 Python 代码编码问题

解决Python代码编码问题 SyntaxError: Non-UTF-8 code starting with '\xc1'解决方案是：在程序最上面加上：#coding=gbk这样程序就可以正常运行了。

2018-01-24 14:50:55 235

原创 Python 模块

今天执行python,报错：AttributeError: 'module' object has no attribute 'call'原因：你的程序文件名是 subprocess.py，导致 import subprocess 导入的不是 Python 中的 subprocess 而是你的这个文件，然而你的文件中没有 call。解决方法：文件名不要与 Python 中的模块名相同。

2018-01-24 14:44:50 142

原创 Python 枚举类

如果要"限制定义枚举时，不能定义相同值的成员",可以使用装饰器@unique【要导入unique模块】from enum import Enum, unique@uniqueclass Color(Enum): red = 1 red_alias = 1执行时会报错：ValueError: duplicate values found in : red_al

2018-01-24 14:42:46 144