自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 sql语句练习

sc分数表SId CId score01 01 80.001 02 90.001 03 99.002 01 70.002 02 60.002 03 80.0学生表student(SIdSnameSageSsex),老师表teacher(TIdTname),课程表course(CIdCnameTId)1、查询 01 课程比 02 课程成绩高的学生信息同一个表里面同一个列是无法比较的。只能将这个表jo

2021-03-28 10:16:53 218 1

原创 clickhouse从入门到精通

1、像MySQL一样,CH也有引擎,分为库引擎和表引擎,表引擎有memory,log,合并树等等。引擎决定数据的存储方式,是否索引,是否能分区,是否支持副本等等2、为什么快底层c++开发,可以充分利用硬件优势;历史存储;建立索引;使用大量算法处理数据;支持向量化处理...

2021-03-19 22:51:39 497

原创 大数据架构师之路

1、同时拥有实时和离线处理的架构,既保证低延迟,又保障正确性。这个方法被称作 Lambda 架构,它通过批量 MapReduce作业提供了虽有些延迟但是结果准确的计算,同时通过flink/Storm将最新数据的计算结果初步展示出来。双路生产会存在一些问题,比如加工逻辑double,开发运维也会double,资源同样会变成两个资源链路。因为存在以上问题,所以又演进了一个Kappa架构。Kappa架构从架构设计来讲比较简单,生产统一,一套逻辑同时生产离线和实时。但是在实际应用场景有比较大的局限性,在业内直接

2021-02-28 23:45:27 1486 1

原创 flume从入门到精通

1、Flume中提供的Channel实现主要有三个:Memory Channelevent保存在JavaHeap中。如果允许数据小量丢失,推荐使用。(宕机可能丢失数据)File Channelevent保存在本地文件中,可靠性高,但吞吐量低于Memory ChannelJDBC Channelevent保存在关系数据中,一般不推荐使用2、flume如何保证数据可靠性将channel设置为file利用事务Flume使用两个独立的事务分别负责从soucrce到channel,以及从ch

2020-11-15 19:00:13 164

原创 压缩原理

1、压缩前:谷歌大数据中心的大数据工程师处理大数据压缩后:谷歌大数据中心的<6,3>工程师处理<8,3>压缩算法里面肯定不是存的<6,3>这种字符,存的是Huffman编码,而举例+长度和literal的Huffman编码是不一样的,所以是可以区分是原意字符还是压缩标记2、每个字符可以用一个唯一的二进制串表示,这个二进制串称为这个字符的码字,这个二进制串的长度称为这个码字的码字长度3、distance码子区间的划分:存的时候只存code的Huffman编码,具体的

2020-11-14 11:21:57 785

原创 java语法基础

1、计算数组的长度用length 。计算字符串的长度用length()。 字符是否相等的比较用==String[] strsstrs.lengthstrs[0].length();if (strs[i].charAt(j) != strs[i+1].charAt(j)) {return res;}

2020-08-08 10:33:24 140

原创 经典排序算法

1、归并排序归并排序算法有两个基本的操作,一个是分,也就是把原数组划分成两个子数组的过程。另一个是治,它将两个有序数组合并成一个更大的有序数组。它将数组平均分成两部分: center = (left + right)/2,当数组分得足够小时—数组中只有一个元素时,只有一个元素的数组自然而然地就可以视为是有序的,此时就可以进行合并操作了。因此,上面讲的合并两个有序的子数组,是从 只有一个元素 的两个子数组开始合并的。public class MergeSort { public static

2020-07-25 11:06:50 123

原创 数据结构

1、红黑树R-B Tree,全称是Red-Black Tree,又称为“红黑树”,它一种特殊的二叉查找树。红黑树的每个节点上都有存储位表示节点的颜色,可以是红(Red)或黑(Black)。红黑树的特性:(1)每个节点或者是黑色,或者是红色。(2)根节点是黑色。(3)每个叶子节点(NIL)是黑色。 [注意:这里叶子节点,是指为空(NIL或NULL)的叶子节点!](4)如果一个节点是红色的...

2020-05-04 11:46:52 184

原创 java入门到精通

1、CASConmpare And Swap比较和交换,主要用于多个线程对共享内存的变量(全局变量)操作时的线程安全问题。它将内存位置的内容与给定值进行比较,只有在相同的情况下,将该内存位置的内容修改为新的给定值。这是作为单个原子操作完成的。一个 CAS 涉及到以下操作我们假设内存中的原数据V,旧的预期值A(线程从共享内存中取出的数据),需要修改的新值B。比较 A 与 V 是否相等。(比...

2020-03-13 23:49:51 303

原创 mongodb入门到精通

1、mongo常用操作1)创建数据库:use mymongodb2)mongo创建集合:db.createCollection(“mycollection”)3)mongo插入数据:db.mycollection.insert({“name”:“jayo”})4)db.col.find({“name”:“ljy”, “age”:“20”}).pretty()等于MySQL的where na...

2020-02-22 19:08:45 218

原创 hbase入门到精通

1、提高Hbase API写入操作效率:Write Buffer Size Hbase Client会在数据累积到设置的阈值后才提交RegionServer。这样做的好处在于可以减少RPC连接次数Compression 压缩HColumnDescriptor hcd = new HColumnDescriptor(familyName);hcd.setCompressionType(A...

2020-02-22 09:56:36 300

原创 广告投放系统

1、广告传统广告:广告主要靠人力与众多媒体逐个谈判,或者通过广告代理购买媒体资源。不管是广告主还是媒体都要花费大量人力和时间程序化广告:广告主可以同时一投多个媒体,并且实现个性化精准营销。把广告主和媒体通过程序连接起来,省掉两边的人力安排。效率和效果都会提升2、落地页:最终生成的广告页面。因为广告框空间有限,需要落地页去展示详细的东西,并在这进行埋点3、TD:需求方可以在TD上统一管理多个...

2020-02-21 22:01:34 2143

原创 机器学习入门到精通

1、训练模型:将训练集数据,代入算法进行运算,然后不断调整参数,使运算结果和实际结果相同(近似),得到的参数代入原来的算法,得到的算法就是模型核心思想就是数学上的:根据某些数据,求得参数,得到的参数后的整个数学公式就是模型2、特征工程:特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)htt...

2020-02-21 21:40:12 386

原创 elasticsearch入门到精通

1、基本概念节点:node,形成集群的每台服务器。主节点:负责管理集群范围内的所有变更,例如增加、删除索引,或者增加、删除节点等。主节点并不需要涉及到文档级别的变更和搜索等操作。可以通过属性node.master进行设置。数据节点:存储数据和其对应的倒排索引。默认每一个节点都是数据节点(包括主节点),可以通过node.data属性进行设置。协调节点:如果node.master和nod...

2020-02-21 13:47:56 330

原创 spark-streaming从入门到精通

1、spark streaming获取kafka的数据有两种形式:(现在基本都是用direct方式了)receiver通过zookeeper来连接kafka队列,来获取数据。如果要做到容错,就要启用WAL机制。但吞吐量不高,效率低,而且可能反复消费direct直接连接到kafka的节点上获取数据。一般都需要自己写程序,把kafka的读偏移量写到zk中。如果spark挂掉了,会自动从...

2020-02-20 23:01:53 311

原创 个性化推荐系统

1、个性化推荐系统的推荐引擎:其实就是很简单的一个java web代码响应达到毫秒级,为什么这么快?(1)服务器分布式:请求经过8台ALB(负载均衡服务器),然后分发到48台BLU(响应服务器)进行处理(2)服务器取数是到redis取,redis是基于内存的,所以取出来很快2、个性化推荐中涉及到数据挖掘,机器学习那一块的,是指离线模型,准实时模型和在线模型:根据用户的行为特征(浏览行为和...

2020-02-20 21:26:28 1126

原创 python入门到精通

1、Python多线程import threadingimport timedef run(n): print("task", n) time.sleep(10) if __name__ == '__main__'://特别注意:不能写成threading.Thread(target=run("t1")),否则还是单线程 t1 = threading.Thre...

2020-02-18 21:22:04 98

原创 经典算法

1、给定一个只包括 ‘(’,’)’,’{’,’}’,’[’,’]’ 的字符串,判断字符串是否有效。有效字符串需满足:左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。示例 1:输入: “()”输出: true示例 2:输入: “()[]{}”输出: true示例 3:输入: “(]”输出: false示例 4:输入: “(...

2020-02-11 21:13:00 438

原创 go入门到精通

1、idea搭建go开发环境1)下载go https://dl.google.com/go/go1.12.4.windows-amd64.msi2)配置环境变量配置用户变量GOPATH,用于存放go get下载的go包: E:\code\go_pro配置系统变量GOROOT: D:\software\go配置系统变量Path: 在最后添加: ;D:\software\go\bin...

2020-02-05 15:56:39 243

原创 redis入门到精通

1、redis数据结构string类型:即简单的kvhash类型:即k field v

2020-02-03 15:12:08 236

原创 zookeeper从入门到精通

1、工作原理服务器在zk上注册(创建临时节点),客户端监听zk上的节点信息,如果某个服务器挂了,zk上节点删除,客户端就会知道某个服务器挂了2、zk存储的数据是很小的,只是一些配置文件的数据3、应用场景1)统一命名服务:如www.baidu.com对应的多个ip地址2)统一配置管理:将集群配置信息写到一个znode,各个节点监听这个znode3)统一集群管理:集群各个节点的健康状态写到...

2020-02-03 13:42:49 326

原创 flink入门到精通

1、lambada架构需要同时搭建批处理(保证数据准确)和流处理(低延迟)两套架构。而flink结合spark-streaming(高吞吐,数据准确性)和storm(低延迟)的优点,这样相当于一套架构实现了lambada架构。...

2020-01-28 14:04:56 1345

原创 druid入门到精通

1、druid和es,kylin对比ES,Druid的优势在于聚合计算,ES的优势在于查明细。es比较重量级Druid可以说是一款基于时序的查询引擎,支持数据实时摄入,在数据摄入前指定维度和指标,提供基于时间层面的预聚合,Druid会把一个数据点当做一个实际发生的事实,在数据摄入后就不能修改。常被应用于一些实时的场景,比如对数据实时分时间段分组聚合。ES同样是一款高效的查询引擎,支持数据的批...

2020-01-26 16:45:40 587

原创 Kafka入门到精通

1、kafka0.11.0.0版本之前,Kafka只能支持两种语义:At most once和At least once。Kafka在0.11.0.0版本支持增加了对幂等的支持。幂等是针对生产者角度的特性。幂等可以保证生产者发送的消息,不会丢失,而且不会重复要实现 exactly-once 在 Kafka 0.11.0 中有两个官方策略:1)幂等每个 Producer 在初始化的时候都会被分...

2020-01-26 15:52:11 382

原创 sql学习

1、sql语句中where与having的区别例1:要查找平均工资大于3000的部门select deparment, avg(salary) as average from salary_info group by deparment having average > 3000此时只能使用having,而不能使用where。一来,我们要使用聚合语句avg;二来,我们要对聚合后的结果进...

2020-01-26 15:45:06 5378

原创 hadoop入门到精通

1、判断文件是否存在(判断该目录下是否有文件存在)hdfs dfs -test -e hdfs路径 if [ $? -eq 0 ] ;thenecho ‘exist’elseecho ‘Error! Directory is not exist Or Zero bytes in size’fi...

2020-01-26 14:07:47 704

原创 大杂烩

1、用maven插件maven-assembly-plugin打包时,如果代码修改了,必须recompile主类or rebuild项目,才能再打包,否则修改不生效2、

2020-01-26 13:53:38 643 1

原创 Linux学习

1、用rz -be上传windows本地文件到Linux服务器sz 文件 将Linux服务器文件下载到window本地

2020-01-08 19:40:11 216

原创 Scala学习

1、scala判断一个数据或者对象的类型只需要在该对象后面添加 .getClass.getSimpleName2、显示找不到主类:make directory as source root3、报错:object FloatRef does not have a member create。。是因为pom文件中scala相关依赖没加进去,如org.scala-langscala-co...

2020-01-08 19:39:40 167

原创 spark入门到精通

1、idea搭建spark开发环境1)安装jdk 2)安装Scala 3)安装maven其中pom文件中<scala.version>2.11.0</scala.version>必须设置为项目的scala环境。spark的依赖后缀必须也是也跟这里的scala版本一样2、对于spark object类型的类,直接拿来用就好了,不用new...

2020-01-08 19:35:35 1073

原创 git命令入门

git命令0)git操作分为四部分,1.你自己的文件,2.缓存区,3.本地仓库,4.服务器远程仓库。当你修改了自己的文件后,你会git add xx将修改保存到缓存区,然后再用commit推送修改到本地仓库中。最后通过push命令推到远程仓库1) 初始化配置git config --global user.name “Jayo la”git config --global user.em...

2019-12-17 21:00:58 143

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除