匿名啊啊啊-CSDN博客

原创 Cuckoo全部安装过程

一、先安装基本的依赖：（centos下安装：）1、yum -y install python python-pip python-devel libffi-devel openssl-devel安装遇到的问题：解决：华研的node1,2,3这三个点不能连接外网；把安装挪到了node0点；安装完成：找不到python-pip包：首先检查linux有没有安装python-pip包，直接执行 yum -y install python-pip 没有python-pip包就执行命令

2020-10-19 16:50:01 2718

原创 Java IP转Long Long转IP

package aaa;import java.util.ArrayList;import java.util.List;public class ip2Long { public static void main(String[] args) {// String ipaddr = "103.13.221.40"; String ipaddr...

2018-11-22 10:24:20 3171 1

转载 java读取计算机CPU、内存等信息（Sigar使用）

Sigar是Hyperic-hq产品的基础包,是Hyperic HQ主要的数据收集组件。它用来从许多平台收集系统和处理信息. 这些平台包括：Linux, Windows, Solaris, AIX, HP-UX, FreeBSD and Mac OSX.Sigar有C，C#，Java和Perl API，java版的API为sigar.jar sigar.jar的底层是用C语言编写的，它通过本地方法...

2018-11-01 15:46:24 862

原创 ElasticSearch学习（十三）在Java应用中实现集群管理

package Test;import org.elasticsearch.action.admin.cluster.health.ClusterHealthResponse;import org.elasticsearch.client.transport.TransportClient;import org.elasticsearch.cluster.health.ClusterHe...

2018-08-03 18:55:25 484

原创 ElasticSearch学习（十二）在Java应用中实现组合查询、实现桶聚合

//组合查询 @Test public void test28() throws Exception { //指定ES集群 Settings settings = Settings.builder().put("cluster.name", "my-application").build(); //创建访问ES服务器的客户端 ...

2018-08-03 18:36:45 1747

原创 ElasticSearch学习（十一）在Java应用中实现聚合查询、query string查询

//聚合查询 @Test public void test20() throws Exception { //指定ES集群 Settings settings = Settings.builder().put("cluster.name", "my-application").build(); //创建访问ES服务器的客户...

2018-08-03 17:41:38 2149

原创 ElasticSearch学习（十）在Java应用中range查询、prefix查询、wildcard查询、fuzzy查询、type查询、id查询

//range查询（限定范围查询） @Test public void test14() throws Exception { //指定ES集群 Settings settings = Settings.builder().put("cluster.name", "my-application").build(); //创...

2018-08-03 16:56:22 4712

原创 ElasticSearch学习（九）在Java应用中实现match查询和multimath查询，term查询和terms查询

//查询所有 //match_all @Test public void test9() throws Exception { //指定ES集群 Settings settings = Settings.builder().put("cluster.name", "my-application").build(); //创...

2018-08-03 16:04:30 2924

原创 ElasticSearch学习（八）在Java应用中实现批量操作（mget&bulk）和查询删除、match_all（查询所有）

//mget批量查询 @Test public void test6() throws Exception { //指定ES集群 Settings settings = Settings.builder().put("cluster.name", "my-application").build(); //创建访问ES服务器的客户...

2018-08-03 15:42:59 4372

原创 ElasticSearch学习（七）在java应用中实现文档的添加、删除、更新

更新文档有直接更新和Upsert方式两种更新的方式：Upsert更新方式：如果文档存在，执行更新；如果文档不存在，执行添加。package Test;import org.elasticsearch.action.delete.DeleteResponse;import org.elasticsearch.action.get.GetResponse;import org.ela...

2018-08-03 15:06:44 1869

原创 ElasticSearch学习（六）使用ElasticSearch API实现CRUD

目录2.5、版本控制2.6、实现映射mapping2.7、基本查询（Query查询）2.7.1、数据准备2.7.2、term查询和terms查询2.7.3、控制查询返回的数量2.7.4、返回版本号2.7.5、match查询（分词器）2.7.6、控制加载的字段2.7.7、排序2.7.8、前缀匹配查询2.7.9、范围查询2.7.10、willdcar...

2018-08-02 17:54:21 632

原创 ElasticSearch学习（五）elasticsearch基本操作

1.1、倒排索引Elasticsearch使用一种称为倒排索引的结构，它适用于全文搜索，一个倒排索引由文档中所有不重复的列表构成，对于其中每一个词，有一个包含它的文档列表。示例：（1）：假设文档集合包含五个文档。每个文档内容如图所示，在图中最左端一栏是每个文档对应的文档编号。我们的任务就是对这个文档集合建立倒排索引。（2）：中文和英文等语言不同，单词之间没有明确分隔符号，所以...

2018-08-01 16:26:08 365

原创 ElasticSearch学习（四）kibana的安装

需要安装跟elasticsearch一样的版本号下载地址：https://www.elastic.co/downloads/kibana 根据需要下载，如果是在linux下，就下载rpm或者linux版本的，我下载的是这个版本，就是linux版本的，直接在linux下解压之后就可以使用了[hadoop@hadoop01 ~]$ tar -zxvf kibana-6.2.4-li...

2018-07-31 20:59:49 300

原创 ElasticSearch学习（三）安装Head插件

提前关闭防火墙Head是elasticsearch的集群管理工具，可以用于数据的浏览查询1、ElasticSearch-head是一款开源软件，被托管在github上面，所以如果我们要使用它，必须先安装git，通过git获取ElasticSearch-head安装git：linux安装git2、运行ElasticSearch-head会用到grunt，而grunt需要npm包管...

2018-07-31 20:55:45 243

原创 ElasticSearch学习（二）ElasticSearch安装

CentOS 6下安装Elasticsearch6.2.41、首先需要安装JDK环境自行百度安装2、下载elasticsearch 官网下载https://www.elastic.co/downloads/past-releases/elasticsearch-6-2-4下载之后上传到Linux 3、解压缩[hadoop@hadoop01 ~]$ tar -zxvf ...

2018-07-31 20:38:52 263

原创 ElasticSearch学习（一）ElasticSearch概述

1.1、ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTfulweb接口。ElasticSearch是用java开发的，病作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。构建在全文检索开源软件Lucene智商的ElasticSearch，...

2018-07-31 20:06:53 519

原创 spark 数据写入到 hbase

1）spark把数据写入到hbase需要用到：PairRddFunctions的saveAsHadoopDataset方法，这里用到了 implicit conversion，需要我们引入import org.apache.spark.SparkContext._2）spark写入hbase，实质是借用了org.apache.hadoop.hbase.mapreduce.TableInpu...

2018-07-26 18:31:35 2654

原创 SparkSQL读取Hive数据，SQL处理之后，存入Hive的分区表

pom文件：<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=&quot

2018-07-24 16:00:38 6277

原创十进制Ip转换为Ip

object Int2IP { def int2IP(ipInt: Long): String = { val sb: StringBuilder = new StringBuilder sb.append(ipInt & 0xFF).append(".") sb.append((ipInt >> 8) & 0xFF).appen...

2018-07-18 17:03:51 1550

原创 IDEA打包流程

程序运行，提前将表存储到对应的数据库中将程序打包，详细图解过程如下：将打包好的jar包上传到spark集群，使用命令运行 spark-submit --class day6.test1.day9.HotGoodsMT --master local[4] meituan.jar ...

2018-06-27 18:38:18 1891

原创 Mac下IDEA的使用之常用快捷键篇

在mac下idea的常用快捷键如下，下面的快捷键都亲自试用，并有一些和eclipse对比的说明alt+f7查找在哪里使用相当于eclipse的ctrl+shift+Gcommand+alt+f7 这个是查找选中的字符在工程中出现的地方，可以不是方法变量类等，这个和上面的有区别的command＋F7可以查询当前元素在当前文件中的引用，然后按F3可以选择，功能基本同上选中文本，按comman...

2018-06-26 16:05:34 3786 1

原创 IDEA设置成竖列文件转换

2018-06-26 09:42:59 2623 1

原创 Sqoop从Mysql全量定时导入Hive

脚本内容：（sqoop.sh）#!/bin/shsqoop import \--connect jdbc:mysql://localhost:3306/mysql \--username root \--password 111111 \--table help_topic \--fields-terminated-by "\t" \--lines-terminated-...

2018-06-25 14:00:09 1370

原创大文件切分小文件

用户日志数量：5千万，用户数目5000需求：按照用户id将文件拆分成5000个小文件，文件已用户id作为文件名称scala代码如下：可以快速得出结果package cn.cslc.sdwd.log_AH import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat import org.apache.log4j.{Level...

2018-06-23 16:46:38 2090

原创 Sqoop学习（三）

导入：--connect 指定数据库链接url--username 指定数据库的用户名--password 指定数据库的密码--table 指定要导出数据的mysql数据库表-m 指定MapTask的个数--target-dir 指定导出数据在HDFS上的存储目录--fields-terminated-by 指定每条记录中字段之间的分隔符--where 指定查...

2018-06-23 16:02:53 320

原创用API连接HBase

1、pom文件：<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="

2018-06-13 20:54:23 526

原创 java二分法查找

public class Erfenchazhao { public static void main(String[] args) { int [] src = new int[]{1,3,2,1,4,4,5,555,2}; System.out.println(search(src,555,0,src.length-1)); } pu...

2018-06-06 17:52:42 271

原创 MySQL中MyISAM与InnoDB区别及选择

InnoDB：支持事务处理等不加锁读取支持外键支持行锁不支持FULLTEXT类型的索引不保存表的具体行数，扫描表来计算有多少行DELETE 表时，是一行一行的删除InnoDB 把数据和索引存放在表空间里面跨平台可直接拷贝使用InnoDB中必须包含AUTO_INCREMENT类型字段的索引表格很难被压缩MyISAM：不支持事务，回滚将造成不完全回滚，不具有原子性不支持外键不支持外键支持全文搜索保存表...

2018-06-01 21:55:12 184

原创 Hive学习（六）数据仓库的表设计

数据仓库的起源可以追溯到计算机与信息系统发展的初期。它是信息技术长期复杂演化的产物，并且直到今天这种演化仍然在继续进行着。而数据仓库容易让人糊涂的地方在于它是一种体系结构，而不是一种技术。这点使得许多技术人员和风投都感到沮丧，因为他们希望的是打好成包的专业技术，而非具有哲学意义的体系架构。本系列旨在于讲述Hive搭建数据仓库过程中的一些要点，所以希望读者理解Hive和数据仓库的区别和联系。 Hi...

2018-06-01 21:53:28 5874 2

原创 SparkSQL学习（三）SparkSQL读取Mysql的两种方式

第一种：package Mysqlimport java.util.Propertiesimport org.apache.spark.sql.DataFrameimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.{SparkConf, SparkContext}object SparkSQL1 ...

2018-05-27 21:40:17 8865 1

原创面试2

我现在知道自己的实践能力比较欠缺，也希望自己能够在公司里得到更多的实践。

2018-05-25 17:17:43 226

原创 SparkStreaming项目（实时统计每个品类被点击的次数）

1、项目的流程：2、需求实时统计每个品类被点击的次数（用饼状图展示）：3、分析设计项目新建一个Maven项目：pom文件：<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/20...

2018-05-23 22:39:55 9915 1

原创 Mysql学习（三）Spark（Scala）写入Mysql的两种方式

package totalimport org.apache.spark.sql.{DataFrame, Row, SQLContext, SparkSession}import org.apache.spark.{SparkConf, SparkContext}import java.util.Propertiesimport org.apache.spark.rdd.RDDimpo...

2018-05-22 08:36:05 4611

原创 kafka学习（六）-API连接kafka操作（direct方式）

参考spark官方文档 kafkaAPI需要先启动kafka，创建一个主题：package sparkstreaming.lesson08import kafka.serializer.StringDecoderimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.kafka...

2018-05-21 23:12:20 1333

原创 Anaconda与Spark整合

1、软件下载Anaconda官网2、软件安装双击下一步，就可以了。3、测试使用4、Pycharm与anaconda关联将Python27里面的这两个文件放入C:\ProgramData\Anaconda2\Lib\site-packages 目录如果这个里面没有Anaconda/python.exe。需要：Site-packages下有刚刚添加的文件：代码开发，运行结果正常：#! /usr/bi...

2018-05-21 21:37:44 2736

原创 Spark学习（一）SparkStreaming的官方文档

官网地址1、简介1.1　概述Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果...

2018-05-21 11:22:42 691

原创 Spark GraphX学习（一）图（GraphX ）简介

1、图（GraphX）1.1、基本概念图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种数据结构。这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模，图可以用来表示自然发生的连接数据，如：社交网络、互联网web页面常用的应用有：在地图应用中找到最短路径、基于与他人的相似度图，推荐产品、服务、人际关系或媒体。2、术语2.1、顶点和边一般关系图中，事物为顶点，关系为边2...

2018-05-21 10:43:57 17864

原创 Spark学习（二）SparkStreaming的官方文档

1、SparkCore、SparkSQL和SparkStreaming的类似之处2、SparkStreaming的运行流程2.1　图解说明2.2　文字解说1、我们在集群中的其中一台机器上提交我们的Application Jar，然后就会产生一个Application，开启一个Driver，然后初始化SparkStreaming的程序入口StreamingContext；2、Master会为这个Ap...

2018-05-20 22:55:47 381

原创企业

项目背景：社会工程学原理《欺骗的艺术》编写方案要诀：任何政策要从国家政策方面入手。voip技术VOIP技术：数据：项目的工作流程：大数据软件开发流程图：功能架构图，技术架构图，逻辑架构图，网络拓扑图...

2018-05-20 19:27:07 341

原创面试中必须要会的知识点

1、项目都分析过哪些业务模型参考各个需求文档：离线的报表（展示量，点击量，点击率，参与竞价数，竞价成功数，消费）终端设备分析（运营商，联网方式，操作系统，客户端）渠道分析媒体分析统一用户识别数据标签化用户上下文标签合并图计算再次合并标签把标签存入HBase，再次合并标签 --> 数据到了HBase以后，就到了精准营销部门2、项目中的知识点1）parquet文件存储（列式存储）a、可以跳过不符...

2018-05-19 23:00:56 311

空空如也

空空如也