Evan-^_^-CSDN博客

原创百度指数爬虫城市对应代码

【代码】百度指数爬虫城市对应代码。

2022-09-15 16:28:43 2787

目前暂未找到ignite提供的导出sql命令，但是提供了一个outputformat参数，可以设置sql结果的导出格式那么其实可以直接使用linux自带的 > 命令将csv文件格式数据加到指定文件中最终命令如下./sqlline.sh --verbose=true -u jdbc:ignite:thin://127.0.0.1 --run=/tmp/out.sql --outputformat=csv | sed "s/'/\"/g" > /tmp/aa.csv其中out.sql为一

2021-07-01 16:22:35 781 1

原创 ignite在使用jdbc连接插入数据时，开启分区感知功能后会变慢的问题

近日在使用ignite的过程中，为了提升读写速度，开启了分区感知功能，经过测试，key-value结构的数据读写速度都有很大提升，但是当使用表结构存储的时候，返现读取速度确实变快了，但是写入速度反而变慢由于测试几轮都是这样的结果，同时官网确实有写jdbc也支持分区感知功能，于是有点怀疑其代码的合理性debug了一下并研究源码之后，发现问题所在主要问题出现在如下两个方法中：一个是更新关联缓存的分区信息/** * Recreates affinity cache if affinity to

2021-06-28 14:56:16 676

原创 yanagishima-18连接presto，报错：Query did not match any selection rule

yanagishima-18连接presto，报错：Query did not match any selection rule当安装完yanagishima，正常启动后，UI页面也可以看到，但是无法显示库，表等信息，sql查询也无法使用，同时报错：Query did not match any selection rule原因为你的presto配置了resource_groups，同时yanagishima有自己的resource，而yanagishima的source不在你presto配置的sour

2021-06-28 14:17:35 1342

原创 kafka常用命令

kafka常用命令//后台启动nohup ./kafka-server-start.sh ../config/server.properties 2>&1//创建topic./kafka-topics.sh --create --zookeeper spark-01:2181,spark-02:2181,spark-03:2181 --topic test1//查看topi...

2019-07-09 18:15:39 184

原创合并两表结构完全相同的表，用b表中的数据更新a表

a，b两表结构完全相同，a表为原始表，数据为当日之前的，b表为当日新的数据，通过以下sql可以将a，b表合并，效果为：若b表中id在a表中已经存在，则用b表中该id对应的数据覆盖a表中的，若b表中的id不存在，则添加至a表SELECT a.id, a.end_timeFROM ( SELECT a.id, a.end_time FROM ( SELECT...

2019-06-26 15:40:01 1066

原创 maven项目中写scala pom配置

<properties> <scala.binary.version>2.11.12</scala.binary.version> <scala.version>2.11.12</scala.version> </properties> <dependency>...

2019-06-25 10:46:50 1788

原创 hbase常用 java api

package com.sxt.hbase;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.ap...

2019-06-22 15:39:34 185

原创 Scala整理_1

一、Scala简介Scala的6个特征a、java和Scala可以混编b、自动推测类型c、并发和分布式d、特质，特征（类似java中的interfaces和abstract的结合体）e、模式匹配（类似java中的switch）f、高阶函数二、Scala安装使用环境配置1、官网下载scala：http://www.scala-lang.org/download/2.10.4.ht...

2019-02-15 23:04:37 659

原创消息队列kafka

一、kafka简介kafka是一个高吞吐、低延迟分布式的消息队列系统，每秒可处理几十万条消息，延迟最低只有几毫秒kafka集群有多个broker服务器组成，每个类型的消息定义为topic同一个topic内部的消息按照一定的key和算法被分区存储在不同的broker上消息生产者producer和消费者consumer可以在多个broker上生产消费topictopics和logsto...

2019-01-28 22:58:27 319

原创 ElasticSearch总结——2

一、核心概念1、cluster代表一个集群，集群中有多个节点，其中一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来书的，es的一个重要概念是去中心化，字面理解是无中心节点，这是对于外部来说，从外部来看es集群，在逻辑上是一个整体，你与任何一个节点通信与整个es集群通信是等价的但es内部有主节点，重要负责管理集群状态，包括管理分片的状态和副本的状态，以及节点的发现和删除...

2019-01-27 16:59:04 267

原创虚拟机Linux系统克隆

在虚拟机关闭的情况下，右键虚拟机–&gt;管理–&gt;克隆注意选择克隆完整虚拟机而不是克隆链接克隆完成后打开虚拟机，注意，此时此时这台虚拟机无法正常联网等操作，需进行如下操作：[root@node4 ~]# vim /etc/sysconfig/network-scripts/ifcfg-eth0 将下列IPADDE更改为新值DEVICE=eth0TYPE=EthernetONB...

2019-01-20 15:05:47 291

原创 Hive环境搭建

1、Hive安装环境说明防火墙关闭已建立好hadoop集群安装一个关系型数据库MySQL2、安装a、Hive压缩包下载，地址：https://www-eu.apache.org/dist/hive/将压缩包传入Linux一台节点下，解压b、配置环境变量 vim ~/.bash_profile HIVE_HOME=$*/**/* //hive目录位置c、添加相关jar包修...

2019-01-20 15:00:00 252

原创 CDH部署

一、环境准备三台（或多台服务器均配置）a、相同JDK版本（安装路径，环境变量配置均保持一致）b、网络配置完成，可相互ping通ip等网络配置vim /etc/sysconfig/network-scripts/ifcfg-eth0hosts配置vim /etc/hostsc、关闭防火墙service iptables stopd、SSH互相免秘钥登录ssh-keygen...

2019-01-19 21:07:01 493

原创常用flume操作

flume官网（官网介绍及使用方式都比较全面）：http://flume.apache.org/index.html1、netcat–logger# example.conf: A single-node Flume configuration# Name the components on this agenta1.sources = r1a1.sinks = k1a1.chann...

2019-01-18 19:10:18 234

原创 HBase表结构设计

一、Hbase高表和宽表选择宽表：行少列多高表：行多列少hbase的row key是分布式的索引，也是分片的依据hbase的row key+column family +column qualifier +timestamp+value是Hfile的排序依据。Hfile据此，对数据的索引到data block级别，而不是行级别，所以这种key是Hfile内部粗粒度（data block粒度...

2019-01-17 21:34:58 676

原创 HBase预分区设置

HBase预分区创建HBase时默认一张表只有一个region，所有put操作都会往这个region中填充数据，当这个region过大就会进行split。在创建表的时候就进行预分区，就可以减少当数据猛增时由于region split带来的资源消耗HBase表的预分区需要紧密结合业务场景选择区分key值，每个region都有一个startkey和endkey表示该region存储rowKey范...

2019-01-17 21:32:41 2579

原创 Hbase安装部署

Hbase安装部署（完全分布式）安装环境确认：zookeeper集群时间同步hdfs安装步骤1、上传tar安装包并解压tar包地址：http://hbase.apache.org/downloads.html注意：确认版本兼容情况，版本兼容情况原地址：http://hbase.apache.org/book.html#_configuration_files2、修改hba...

2019-01-16 10:47:56 174

原创 Nginx作用及配置方式，memcached的session共享实现方式

一、Nginx产生背景巨大流量海量并发的访问单台服务器资源和能力有限二、负载均衡1、高并发每秒内多个请求访问，需要同时处理大量线程进程2、负载均衡将请求/数据均匀的分摊到多个操作单元上执行3、高并发处理每台tomcat的并发量在200到250之间，因此在并发量高时，需要添加tomcat数量，为保证每台tomcat负载量合理时，需要负载均衡。常见互联网分布式架构：客户端层，反向代...

2019-01-03 13:04:15 379

原创超详细虚拟机下Linux系统安装

VMware环境下Linux系统安装1、版本说明本安装使用Linux版本CentOS 6VMware版本122、安装步骤打开VMware不同版本该命令可能位置不同，可在左上角文件命令下找创建新的虚拟机点击创建新的虚拟机后，选择自定义硬件兼容性选择你目前安装的VNware版本（推荐），也可选择默认安装客户机操作系统，选择稍后安装选择Linux系统及对应版本名字及安装位置可...

2018-12-27 23:13:54 502

原创关于Linux系统下无法正常运行rabbitMq的问题

关于Linux系统下无法正常运行rabbitMq的问题安装完rabbitMq后，执行rabbit-server，成功，但进行其他操作会报错，在外部web访问时，无法登陆等情况，主要错误如下：[root@node04 sbin]# rabbitmqctl statusStatus of node rabbit@node04 ...Error: unable to connect to nod...

2018-12-27 21:53:26 2584

原创 Linux入门

本篇博客适合新手小白快速了解Linux，在自己电脑上安装一个Linux系统，同时熟悉一些基本的操作一、Linux简介Linux是一个自由的、免费的、开源的操作系统，相比windows具有更稳定、安全、高效的特点，同时具有良好的移植性和可靠的兼容性。二、环境准备1、Vmware安装（1）、简介虚拟机化技术，将多个操作系统作为虚拟机在单台物理服务器上运行，并且每台虚拟机都可以访问底层服务器...

2018-12-27 21:45:00 208

qq_38524532的博客

原创如何使用python查看百度指数