laogooooog-CSDN博客

原创 sql语句练习

sc分数表SId CId score01 01 80.001 02 90.001 03 99.002 01 70.002 02 60.002 03 80.0学生表student（SIdSnameSageSsex），老师表teacher（TIdTname），课程表course（CIdCnameTId）1、查询 01 课程比 02 课程成绩高的学生信息同一个表里面同一个列是无法比较的。只能将这个表jo

2021-03-28 10:16:53 255 1

原创 clickhouse从入门到精通

1、像MySQL一样，CH也有引擎，分为库引擎和表引擎，表引擎有memory，log，合并树等等。引擎决定数据的存储方式，是否索引，是否能分区，是否支持副本等等2、为什么快底层c++开发，可以充分利用硬件优势；历史存储；建立索引；使用大量算法处理数据；支持向量化处理...

2021-03-19 22:51:39 564

原创大数据架构师之路

1、同时拥有实时和离线处理的架构，既保证低延迟，又保障正确性。这个方法被称作 Lambda 架构，它通过批量 MapReduce作业提供了虽有些延迟但是结果准确的计算，同时通过flink/Storm将最新数据的计算结果初步展示出来。双路生产会存在一些问题，比如加工逻辑double，开发运维也会double，资源同样会变成两个资源链路。因为存在以上问题，所以又演进了一个Kappa架构。Kappa架构从架构设计来讲比较简单，生产统一，一套逻辑同时生产离线和实时。但是在实际应用场景有比较大的局限性，在业内直接

2021-02-28 23:45:27 1587 1

原创 flume从入门到精通

1、Flume中提供的Channel实现主要有三个：Memory Channelevent保存在JavaHeap中。如果允许数据小量丢失，推荐使用。（宕机可能丢失数据）File Channelevent保存在本地文件中，可靠性高，但吞吐量低于Memory ChannelJDBC Channelevent保存在关系数据中，一般不推荐使用2、flume如何保证数据可靠性将channel设置为file利用事务Flume使用两个独立的事务分别负责从soucrce到channel，以及从ch

2020-11-15 19:00:13 206

原创压缩原理

1、压缩前：谷歌大数据中心的大数据工程师处理大数据压缩后：谷歌大数据中心的<6,3>工程师处理<8,3>压缩算法里面肯定不是存的<6,3>这种字符，存的是Huffman编码，而举例+长度和literal的Huffman编码是不一样的，所以是可以区分是原意字符还是压缩标记2、每个字符可以用一个唯一的二进制串表示，这个二进制串称为这个字符的码字，这个二进制串的长度称为这个码字的码字长度3、distance码子区间的划分：存的时候只存code的Huffman编码，具体的

2020-11-14 11:21:57 850

原创 java语法基础

1、计算数组的长度用length 。计算字符串的长度用length()。字符是否相等的比较用==String[] strsstrs.lengthstrs[0].length();if (strs[i].charAt(j) != strs[i+1].charAt(j)) {return res;}

2020-08-08 10:33:24 174

原创经典排序算法

1、归并排序归并排序算法有两个基本的操作，一个是分，也就是把原数组划分成两个子数组的过程。另一个是治，它将两个有序数组合并成一个更大的有序数组。它将数组平均分成两部分: center = (left + right)/2，当数组分得足够小时—数组中只有一个元素时，只有一个元素的数组自然而然地就可以视为是有序的，此时就可以进行合并操作了。因此，上面讲的合并两个有序的子数组，是从只有一个元素的两个子数组开始合并的。public class MergeSort { public static

2020-07-25 11:06:50 163

原创数据结构

1、红黑树R-B Tree，全称是Red-Black Tree，又称为“红黑树”，它一种特殊的二叉查找树。红黑树的每个节点上都有存储位表示节点的颜色，可以是红(Red)或黑(Black)。红黑树的特性:（1）每个节点或者是黑色，或者是红色。（2）根节点是黑色。（3）每个叶子节点（NIL）是黑色。 [注意：这里叶子节点，是指为空(NIL或NULL)的叶子节点！]（4）如果一个节点是红色的...

2020-05-04 11:46:52 208

原创 java入门到精通

1、CASConmpare And Swap比较和交换，主要用于多个线程对共享内存的变量（全局变量）操作时的线程安全问题。它将内存位置的内容与给定值进行比较，只有在相同的情况下，将该内存位置的内容修改为新的给定值。这是作为单个原子操作完成的。一个 CAS 涉及到以下操作我们假设内存中的原数据V，旧的预期值A（线程从共享内存中取出的数据），需要修改的新值B。比较 A 与 V 是否相等。（比...

2020-03-13 23:49:51 344

原创 mongodb入门到精通

1、mongo常用操作1）创建数据库：use mymongodb2）mongo创建集合：db.createCollection(“mycollection”)3）mongo插入数据：db.mycollection.insert({“name”:“jayo”})4）db.col.find({“name”:“ljy”, “age”:“20”}).pretty()等于MySQL的where na...

2020-02-22 19:08:45 255

原创 hbase入门到精通

1、提高Hbase API写入操作效率：Write Buffer Size Hbase Client会在数据累积到设置的阈值后才提交RegionServer。这样做的好处在于可以减少RPC连接次数Compression 压缩HColumnDescriptor hcd = new HColumnDescriptor(familyName);hcd.setCompressionType(A...

2020-02-22 09:56:36 341

原创广告投放系统

1、广告传统广告：广告主要靠人力与众多媒体逐个谈判，或者通过广告代理购买媒体资源。不管是广告主还是媒体都要花费大量人力和时间程序化广告：广告主可以同时一投多个媒体，并且实现个性化精准营销。把广告主和媒体通过程序连接起来，省掉两边的人力安排。效率和效果都会提升2、落地页：最终生成的广告页面。因为广告框空间有限，需要落地页去展示详细的东西，并在这进行埋点3、TD：需求方可以在TD上统一管理多个...

2020-02-21 22:01:34 2224

原创机器学习入门到精通

1、训练模型：将训练集数据，代入算法进行运算，然后不断调整参数，使运算结果和实际结果相同（近似），得到的参数代入原来的算法，得到的算法就是模型核心思想就是数学上的：根据某些数据，求得参数，得到的参数后的整个数学公式就是模型2、特征工程：特征工程就是一个把原始数据转变成特征的过程，这些特征可以很好的描述这些数据，并且利用它们建立的模型在未知数据上的表现性能可以达到最优（或者接近最佳性能）htt...

2020-02-21 21:40:12 432

原创 elasticsearch入门到精通

1、基本概念节点：node，形成集群的每台服务器。主节点：负责管理集群范围内的所有变更，例如增加、删除索引，或者增加、删除节点等。主节点并不需要涉及到文档级别的变更和搜索等操作。可以通过属性node.master进行设置。数据节点：存储数据和其对应的倒排索引。默认每一个节点都是数据节点（包括主节点），可以通过node.data属性进行设置。协调节点：如果node.master和nod...

2020-02-21 13:47:56 381

原创 spark-streaming从入门到精通

1、spark streaming获取kafka的数据有两种形式：（现在基本都是用direct方式了）receiver通过zookeeper来连接kafka队列,来获取数据。如果要做到容错，就要启用WAL机制。但吞吐量不高，效率低，而且可能反复消费direct直接连接到kafka的节点上获取数据。一般都需要自己写程序，把kafka的读偏移量写到zk中。如果spark挂掉了，会自动从...

2020-02-20 23:01:53 340

原创个性化推荐系统

1、个性化推荐系统的推荐引擎：其实就是很简单的一个java web代码响应达到毫秒级，为什么这么快？（1）服务器分布式：请求经过8台ALB(负载均衡服务器)，然后分发到48台BLU（响应服务器）进行处理（2）服务器取数是到redis取，redis是基于内存的，所以取出来很快2、个性化推荐中涉及到数据挖掘，机器学习那一块的，是指离线模型，准实时模型和在线模型：根据用户的行为特征（浏览行为和...

2020-02-20 21:26:28 1233

原创 python入门到精通

1、Python多线程import threadingimport timedef run(n): print("task", n) time.sleep(10) if __name__ == '__main__'://特别注意：不能写成threading.Thread(target=run("t1"))，否则还是单线程 t1 = threading.Thre...

2020-02-18 21:22:04 129

原创经典算法

1、给定一个只包括 ‘(’，’)’，’{’，’}’，’[’，’]’ 的字符串，判断字符串是否有效。有效字符串需满足：左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。示例 1:输入: “()”输出: true示例 2:输入: “()[]{}”输出: true示例 3:输入: “(]”输出: false示例 4:输入: “(...

2020-02-11 21:13:00 486

原创 go入门到精通

1、idea搭建go开发环境1）下载go https://dl.google.com/go/go1.12.4.windows-amd64.msi2）配置环境变量配置用户变量GOPATH，用于存放go get下载的go包: E:\code\go_pro配置系统变量GOROOT： D:\software\go配置系统变量Path：在最后添加： ;D:\software\go\bin...

2020-02-05 15:56:39 273

原创 redis入门到精通

1、redis数据结构string类型：即简单的kvhash类型：即k field v

2020-02-03 15:12:08 280

原创 zookeeper从入门到精通

1、工作原理服务器在zk上注册（创建临时节点），客户端监听zk上的节点信息，如果某个服务器挂了，zk上节点删除，客户端就会知道某个服务器挂了2、zk存储的数据是很小的，只是一些配置文件的数据3、应用场景1）统一命名服务：如www.baidu.com对应的多个ip地址2）统一配置管理：将集群配置信息写到一个znode，各个节点监听这个znode3）统一集群管理：集群各个节点的健康状态写到...

2020-02-03 13:42:49 361

原创 flink入门到精通

1、lambada架构需要同时搭建批处理（保证数据准确）和流处理（低延迟）两套架构。而flink结合spark-streaming（高吞吐，数据准确性）和storm（低延迟）的优点，这样相当于一套架构实现了lambada架构。...

2020-01-28 14:04:56 1424

原创 druid入门到精通

1、druid和es，kylin对比ES，Druid的优势在于聚合计算，ES的优势在于查明细。es比较重量级Druid可以说是一款基于时序的查询引擎，支持数据实时摄入，在数据摄入前指定维度和指标，提供基于时间层面的预聚合，Druid会把一个数据点当做一个实际发生的事实，在数据摄入后就不能修改。常被应用于一些实时的场景，比如对数据实时分时间段分组聚合。ES同样是一款高效的查询引擎，支持数据的批...

2020-01-26 16:45:40 640

原创 Kafka入门到精通

1、kafka0.11.0.0版本之前，Kafka只能支持两种语义：At most once和At least once。Kafka在0.11.0.0版本支持增加了对幂等的支持。幂等是针对生产者角度的特性。幂等可以保证生产者发送的消息，不会丢失，而且不会重复要实现 exactly-once 在 Kafka 0.11.0 中有两个官方策略：1）幂等每个 Producer 在初始化的时候都会被分...

2020-01-26 15:52:11 419

原创 sql学习

1、sql语句中where与having的区别例1：要查找平均工资大于3000的部门select deparment, avg(salary) as average from salary_info group by deparment having average > 3000此时只能使用having，而不能使用where。一来，我们要使用聚合语句avg；二来，我们要对聚合后的结果进...

2020-01-26 15:45:06 5481

原创 hadoop入门到精通

1、判断文件是否存在（判断该目录下是否有文件存在）hdfs dfs -test -e hdfs路径 if [ $? -eq 0 ] ;thenecho ‘exist’elseecho ‘Error! Directory is not exist Or Zero bytes in size’fi...

2020-01-26 14:07:47 761

原创大杂烩

1、用maven插件maven-assembly-plugin打包时，如果代码修改了，必须recompile主类or rebuild项目，才能再打包，否则修改不生效2、

2020-01-26 13:53:38 708 1

原创 Linux学习

1、用rz -be上传windows本地文件到Linux服务器sz 文件将Linux服务器文件下载到window本地

2020-01-08 19:40:11 250

原创 Scala学习

1、scala判断一个数据或者对象的类型只需要在该对象后面添加 .getClass.getSimpleName2、显示找不到主类：make directory as source root3、报错：object FloatRef does not have a member create。。是因为pom文件中scala相关依赖没加进去，如org.scala-langscala-co...

2020-01-08 19:39:40 193

原创 spark入门到精通

1、idea搭建spark开发环境1）安装jdk 2）安装Scala 3）安装maven其中pom文件中<scala.version>2.11.0</scala.version>必须设置为项目的scala环境。spark的依赖后缀必须也是也跟这里的scala版本一样2、对于spark object类型的类，直接拿来用就好了，不用new...

2020-01-08 19:35:35 1132

原创 git命令入门

git命令0）git操作分为四部分，1.你自己的文件，2.缓存区，3.本地仓库，4.服务器远程仓库。当你修改了自己的文件后，你会git add xx将修改保存到缓存区，然后再用commit推送修改到本地仓库中。最后通过push命令推到远程仓库1) 初始化配置git config --global user.name “Jayo la”git config --global user.em...

2019-12-17 21:00:58 169

laogong的博客