PCA总结

PCA假设 1. 变量符合高斯分布(正太分布) 2. 变量之间的影响是线性的,也就是可以通过线性变化将数据还原成主要因数 3. 协方差最大的元素对应的转换向量越重要 4. 转换矩阵是正交的 PCA的整个推导过程都是遵循上面的四条假设,如果违反了这些假设,PCA可能作用不大,甚至有反作用,...

2018-08-17 19:10:44

阅读数 46

评论数 0

mysql 通过Python导入clickhouse 行数对于完成速度的影响(数据文件无压缩)

第一步:Mysql导入数据到Python第二步:python在clickhouse建表及数据处理,准备导入第三步:数据导入(数据文件无压缩)from clickhouse_driver import Client import types import time,datetime from da...

2018-03-23 11:46:29

阅读数 2716

评论数 0

python 通过csv插入数据到clickhouse

第一步:连接clickhouse第二步:读取CSV第三步:转换成与clickhouse相匹配的数据第四步:插入,3万行耗时2.3sfrom clickhouse_driver import Client import types import time,datetime from datetim...

2018-03-23 10:10:50

阅读数 2802

评论数 0

Python爬取豆瓣 看过的书

直接附上python代码: #coding=utf-8 import requests from requests.exceptions import RequestException import re import json import xlwt import xlrd def...

2018-03-20 16:05:26

阅读数 155

评论数 0

Python爬取豆瓣 看过的电影

直接附上Python代码:#coding=utf-8 import requests from requests.exceptions import RequestException import re import json import xlwt import xlrd def ...

2018-03-20 16:01:23

阅读数 197

评论数 0

clickhouse与mysql查询速度对比

数据准备工作:    MySQL创建准备对比的表Bigtable并建立索引CREATE TABLE Bigtable ( consumption_id VARCHAR(255), member_id INT(11), fans_id INT(11), bill_date DATE, money V...

2018-03-20 15:43:47

阅读数 3028

评论数 1

mysql表通过csv复制到clickhouse

如何将Mysql里的表数据通过csv格式移到clickhouse    第一步,mysql导出数据到CSV    第二步,将csv文件发送到clickhouse所在的服务器    第三步,将csv文件导入到clickhouse    服务器上连接mysql:mysql -uroot -S /hom...

2018-03-20 11:09:54

阅读数 2623

评论数 0

ClickHouse Functions

至少有两种类型的函数——常规函数和聚合函数。这些是完全不同的概念。常规函数的工作方式就好像它们分别应用于每一行(对于每一行,函数的结果不依赖于其他行)。聚合函数从各行中积累一组值(也就是说,它们依赖于整组行)所有的函数都返回一个单一的返回值(不是几个值,而不是零值)。结果的类型通常仅由参数的类型定...

2018-03-16 16:02:04

阅读数 3550

评论数 2

clickhouse Table engines

Table enginestable engine 决定:数据存储的方式和地点:将数据写入何处,以及从何处读取数据支持哪些查询,如何支持的并发数据访问 如果存在索引,使用是否可以执行多线程请求数据复制当读取数据时,引擎只需要提取必要的列集。但是,在某些情况下,查询可能在表引擎中部分处理注意,对于大...

2018-03-15 17:08:45

阅读数 2820

评论数 0

ClickHouse Syntax 句法

系统中有两种类型的解析器:完整的SQL解析器(递归下行解析器)和数据格式解析器(快速流解析器)。在所有情况下,除了INSERT查询之外,只使用完整的SQL解析器。插入查询使用两个解析器Spaces空格,在语法结构之间可能有许多空间符号(包括查询的开始和结束)。空间符号包括空格、制表符、换行符、CR...

2018-03-15 14:49:20

阅读数 2283

评论数 0

clickhouse SQL查询语句 【译自Github 英文文档】

内容有缩减,原文请点击这里创建数据库CREATE DATABASE [IF NOT EXISTS] db_name创建表CREATE TABLE可以有几种形式。创建一张表,最好指定引擎结构CREATE [TEMPORARY] TABLE [IF NOT EXISTS] [db.]name [ON ...

2018-03-14 17:24:21

阅读数 6848

评论数 0

clickhouse功能一览

1.真正的面向列的DBMS在一个真正的面向列的DBMS中,没有任何“垃圾”存储在值中。例如,必须支持定长数值,以避免在数值旁边存储长度“数字”。例如,十亿个UInt8类型的值实际上应该消耗大约1 GB的未压缩磁盘空间,否则这将强烈影响CPU的使用。由于解压缩的速度(CPU使用率)主要取决于未压缩的...

2018-03-14 15:29:18

阅读数 4341

评论数 0

列存储与行存储的区别

写入:行存储的写入是一次完成,数据的完整性因此可以确定。列存储需要把一行记录拆分成单列保存,写入次数明显比行存储多。行存储在写入上占有很大的优势数据修改:行存储是在指定位置写入一次,列存储是将磁盘定位到多个列上分别写入。行存储在数据修改也是占优的数据读取:行存储通常将一行数据完全读出,如果只需要其...

2018-03-14 15:24:30

阅读数 3509

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭