- 博客(196)
- 收藏
- 关注
原创 历史拉链表
使用UDW创建历史拉链表。 介绍历史拉链表历史拉链表是一种数据模型,主要针对数据仓库设计中表存储数据的方式而定义的。**它记录一个事物从开始到当前状态的所有变化的信息。**拉链表可以避免按每一天存储所有记录造成的海量存储问题,同时也是处理缓慢变化数据的一种常见方式。也就是说,对于表中的任何数据,不进行真正的删除,只记录操作和有效日期。流程其中,tmp0表有两个分区,表...
2019-03-20 18:36:12
3960
原创 生成模型
介绍判别模型和生成式模型,朴素贝叶斯。生成模型和判别模型discriminative learning algorithms,也就是根据特征值来求结果的概率。可以表示为P(y∣x;θ)P(y|x;\theta)P(y∣x;θ),在参数确定的条件下,直接求得在当前样本feature下的y的概率实际上是求条件概率常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosti...
2019-03-20 18:34:17
2650
原创 线性回归与分类
回顾线性回归,logistic回归和softmax。LMS先构造线性函数进行拟合:h(x)=θ0+θ1x1+θ2x2h(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2h(x)=θ0+θ1x1+θ2x2定义cost function:J(θ)=12∑(h(xi)−yi)2J(\theta) = \frac{1}{2} \sum (h(x^...
2019-03-20 18:33:22
859
原创 SVM入门笔记
本文不是一篇正式的tutorial,只是帮助回忆和理解SVM推导的笔记。此文章会长期更新。分类问题SVM(support vector machine)是一种著名的分类算法。我们学过Logistic回归,但它只能处理简单的线性分类。在现实生活中,很多问题的属性不能简单的用线性分类完成,或者说线性分类的效果不好,这时候我们就要想其他办法。超平面我们可以想象这样一个方程:wTx+b=0w^T...
2019-03-20 18:32:16
418
原创 LevelDB安装及使用
安装并使用LevelDB。 环境安装本项目基于Ubuntu 16.04.1 LTS,参考链接。建议预留50G空间,根目录20G,boot 500m,swap 2到4G,其他的都给home若使用虚拟机,建议使用sudo apt-get install gparted进行可视化分区及扩容(需要删除之前的wap分区)安装Clion官网下载解压并安装,运行clion.s...
2019-03-20 18:30:23
2986
原创 并发链表
实现支持并发安全的有序链表。 C++并发头文件<atomic>该头文主要声明了两个类, std::atomic 和 std::atomic_flag,另外还声明了一套 C 风格的原子类型和与 C 兼容的原子操作的函数。<thread>该头文件主要声明了 std::thread 类,另外 std::this_thread 命名空间也在该头文件中。...
2019-03-20 18:29:33
1061
原创 数据库备份
使用三种不同的备份方法SQL dumpBackup-SQL DumpDump方法是生成含有SQL命令的文本文件。通过系统中自带的pg_dump指令可以将指定库中的表及其表中的数据以SQL指令的形式dump到一个文件中 pg_dump -hlocalhost -U postgres -p 5432 -d spj -f "D:/test.dmp"这个命令可以在任意可以连接数据库的远程机...
2019-02-28 15:13:21
5774
原创 数据管理系统 入门及实践
本学期上了数据管理系统这门课,主要是以关系数据库为主,并介绍现在流行的NoSQL数据库,以及分布式的NewSQL、数据库基本原理,对我而言帮助很大。下面将本学期的课程大纲以及Project分享给大家,更多内容我会在我个人博客上持续更新。SyllabusLectureReading MaterialHintsNotes1. coding- Creating Great...
2019-01-20 21:58:20
357
原创 分布式系统 入门及实践
本学期上了分布式系统的课,主要从MapReduce框架、批处理系统代表Spark、流处理代表Flink着手介绍分布式系统的发展,并配以大量project,基本掌握了以Spark、Flink、Zookeeper为主的分布式系统框架使用及原理,希望能对分布式系统感兴趣的同学一些参考。SyllabusLectureReading Material/hintsNotes1. Pr...
2019-01-20 21:56:24
477
原创 机器学习系统--GraphLab
介绍分布式机器学习系统架构GraphLab。GraphLab简介是一个以数据为中心的机器学习系统。实际中很多模型都可以转化为图的形式:社交网络推荐系统文本分析概率图模型我们之前已经有了基于BSP Model的Pregel,其主要特点是需要进行同步(双屏障),而同步是由最慢的节点决定,造成:资源的浪费(大部分节点会等待少部分节点收敛)某些算法可能并不需要同步更新某些机...
2019-01-04 20:08:08
624
原创 机器学习系统--Parameter Server
介绍分布式机器学习系统架构-- Parameter Server。GraphLab简介是一个以参数为中心的机器学习系统。Observations某些learning算法的模型复杂,参数很大Complex Models with Billions and Trillions of Parameterse.g. LDA某些Learning过程呈现线性,需要同步Sequent...
2019-01-04 20:06:03
398
原创 常用图算法实现--Flink
使用Flink实现PageRank、强连通分量、单源最短路径、二分图匹配…PageRank主要参考官网的example算法流程每次计算当前每个网页的转移概率,计算下一时刻到达每个网页的概率并加入随机跳转数据准备pages.txt准备一些顶点,例如1-15links.txt准备一些连接边(也就是链接数):1 21 152 32 42 52 62 73 134 2...
2019-01-03 09:43:12
2081
原创 常用图算法实现--Spar
使用Spark实现PageRank,强连通分量等图算法PageRank数据准备边:1 21 152 32 42 52 62 73 134 25 115 126 16 76 87 17 88 18 98 109 149 110 110 1311 1211 112 113 1414 1215 1网页:12345678...
2019-01-03 09:41:56
497
原创 常用图算法实现--Hadoop
常用图算法在Hadoop上的实现PageRank数据准备边:1 21 152 32 42 52 62 73 134 25 115 126 16 76 87 17 88 18 98 109 149 110 110 1311 1211 112 113 1414 1215 1网页:1 22 53 1 4 15 26 37...
2019-01-03 09:41:06
703
原创 Giraph配置及使用
环境配置Hadoop配置这里使用Hadoop2.5.1进行配置,可以参考这里。查看版本号运行Hadoop./hadoop-2.5.1/sbin/start-dfs.sh查看是否成功Giraph配置下载Giraphcd /usr/localsudo git clone https://github.com/apache/giraph.gitsudo chown -R ha...
2018-12-25 10:21:40
1114
原创 分布式图处理系统--Pregel
介绍分布式图处理系统–Pregel以及其开源实现–Giraph图数据处理简介图数据的应用图数据数据本身以图的形式呈现社交网络传染病传播途径交通路网某些非图结构的数据,也可以转换为图模型后进行处理网页链接机器学习训练数据关联性分析图数据结构表达了数据之间的关联性通过获得数据的关联性,抽取有用的信息购物通过为购物者之间的关系建模,就能很快找到口味相似的...
2018-12-24 10:20:15
2275
原创 批流融合系统-SparkV2/Beam
介绍目前还在推进的批流融合系统-SparkV2/BeamSparkV2回顾Feature在第一代的Spark Streaming系统中,其主要特点为:以批处理核心,使用micro-batch模型将流计算转换为批处理流计算和批处理API可以互用DStream(特殊的RDD)RDDSpark Streaming局限性Spark streaming难以处理的需求Eve...
2018-12-23 20:51:30
1107
原创 Flink编程练习(二)
Map班级学生成绩的随机生成输入:本班同学的学号输出:<学号,成绩>数据准备首先需要一个stuID.csv文件,每一列为一个学号:然后将文件放入HDFS中:hdfs dfs put stuID.csv input编写程序import org.apache.flink.api.common.functions.MapFunction;impo...
2018-12-18 08:17:23
2314
原创 Flink编程练习(一)
Flink编程练习,NYC出租车数据环境配置本项目参考这里,setup。首先确保已经下载好flink依赖,并从Github下载代码。下载依赖数据,这里依赖的是纽约出租车数据,可以使用命令行下载:wget http://training.data-artisans.com/trainingData/nycTaxiRides.gzwget http://training.da...
2018-12-11 09:57:37
1520
原创 OLTPBenchmark配置及OLTP性能调优
配置OLTPBenchmark并进行性能调优安装依赖PostgreSQL首先安装PostgreSQL,本测试系统为Ubuntu,请参考这里。您可以通过psql像postgres用户sudo一样运行单个命令来完成此操作,如下所示:sudo -u postgres psql这会将你直接登录到Postgres中,而不需要中间的bashshell。同样,您可以键入以下命令退出交互式Pos...
2018-12-07 10:33:42
1504
原创 Flink安装及使用
本地部署安装在官网安装Flink,并解压到/usr/local/flinksudo tar -zxf flink-1.6.2-bin-hadoop27-scala_2.11.tgz -C /usr/localcd /usr/local修改文件名字,并设置权限sudo mv ./flink-*/ ./flinksudo chown -R hadoop:had...
2018-12-04 10:06:50
4299
原创 Superset使用
安装并简单使用Superset安装本实验在win10环境下完成。配置请务必安装了VS(安装了C++依赖包),且使用x64 Native Tools Command Prompt for VS 2017运行以下命令:安装虚拟环境virtualenv(需要安装Python,并配置环境变量)pip install virtualenv使用virtualenv。先在E盘建...
2018-12-02 10:09:10
830
原创 SparkSteaming使用
SparkSteaming使用环境设置首先确保已经按安装Spark,使用maven构建工程。在pox.xml中添加:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/...
2018-11-28 16:27:50
737
原创 python plot hist 密度图 概率和不为1
使用ax.hist()函数想要把数据转为密度直方图,但发现直接使用density=true得到的值很奇怪,y轴甚至会大于1,不符合我的预期。查了资料发现density=ture的意思是保证该面积的积分为1,并不是概率和为1,因此我们需要对其进行改进。最简单对方法就是对每个bin增加权重,强迫它为我们的概率值:weights = np.ones_like(myarray)/float(len(...
2018-11-23 15:43:33
18071
4
原创 Mac python plt.show()不显示
在mac中,我使用vscode写python文件,最后需要plt.show(),但死活不显示, 并且命令行一直卡死在那里,查了文档,应该是backend设置不对。我使用anoaconda,对应的matplotlib配置文件路径应该为:/anaconda3/lib/python3.7/site-packages/matplotlib/mpl-data/matplotlibrc打开此文件,修改...
2018-11-23 10:10:07
3117
原创 Storm部署与运行
部署Storm集群。环境配置Strom下载首先从官网下载Strom压缩包,这里以最新的Strom1.2.2作为演示。解压到/usr/local:sudo tar xzvf apache-storm-1.2.2.tar.gz -C /usr/local查看解压文件:需要重命名:sudo mv /usr/local/apache-storm-1....
2018-11-20 11:33:06
1547
原创 Hibernate多对多关系
使用注解用Hibernate自动创建多对多数据表。之前我们用hibernate连接已经创建的数据表,并避免了直接写SQL语言。同样,对于多对多的关系映射,我们可以直接在程序中定义这种对象的关系,然后JPA会自动帮助我们创建表和相关关系。创建项目与之前一样,创建Hibernate项目。需要额外注意,JDK9以上需要添加JPA额外的包才不会报错,具体请参考这里。同时,将Postgres...
2018-11-16 10:32:36
213
原创 Yarn框架下的系统部署
使用yarn部署hadoop和spark使用Yarn本地部署Hadoop修改配置文件首先修改mapred-sit.xml文件:cd /usr/local/hadoop/etc/hadoopmv mapred-site.xml.template mapred-site.xml修改为:<configuration> <property> <nam...
2018-11-13 09:59:42
1389
原创 流计算系统概述
介绍流计算系统的基本概念。流计算应用需求静态数据很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具从静态数据中找到对企业有价值的信息。OLTP:主要面向事务处理(数据库)OLAP:数据仓库基于HDFS的数据仓库:Hive流数据近年来,...
2018-11-11 22:25:40
2298
原创 ZooKeeper配置及简单使用
安装并使用ZooKeeper API对Znode进行控制。Zookeeper配置下载zookeeper首先在官网下载zookeeper:wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.13/zookeeper-3.4.13.tar.gz解压:sudo tar xzvf zookeeper-3.4.13.tar...
2018-11-11 10:58:48
7269
原创 'utf-8' codec can't decode byte 0xa0 in position 4276: invalid start byte
在python打开文件时,很多时候总会遇到这样的问题:'utf-8' codec can't decode byte 0xa0 in position 4276: invalid start byte这是由于编码不正确引起的,我尝试了很多方法,都不能很好的解码,同时很多时候我们又不能直接打开文件查看其编码方式(文件太大),直到我看见了这个问题,终于找到了答案:在打开文件时加上编码方式为cp...
2018-11-07 15:07:29
7299
2
原创 Yarn资源管理框架
简单介绍Yarn。背景介绍MapReduce v1JobTrackerManage Cluster Resources & Job SchedulingTaskTrackerPer-node agentManage Task其中,JobTracker承担了太多的任务作业管理状态监控,信息汇总任务管理调度,监控资源管理MapRe...
2018-11-04 11:59:51
598
原创 ZooKeeper元数据管理系统
简单介绍ZooKeeper。背景介绍HDFS1.0名称节点保存元数据:在磁盘上FsImage和EditLog在内存中映射信息,即文件包含哪些块,每个块存储在哪个数据节点单点故障SecondaryNameNode会定期和NameNode通信从NameNode上获取到FsImage和EditLog文件,并下载到本地的 相应目录下执行EditLog和FsI...
2018-11-04 11:41:44
2587
原创 使用docker搭建spark(2.3.1)集群
使用Docker快速搭建Spark集群。创建Spark集群首先在命令行下载该项目:git clone https://github.com/gettyimages/docker-spark.git在该目录下,输入compose up:等待安装,最后会提示Worker和master都准备好了:在浏览器中输入localhost:8080,出现如下界面...
2018-11-03 17:37:14
6453
1
原创 使用docker安装Hadoop和Spark
使用docker配置安装hadoop和spark分别安装hadoop和spark镜像安装hadoop镜像选择的docker镜像地址,这个镜像提供的hadoop版本比较新,且安装的是jdk8,可以支持安装最新版本的spark。docker pull uhopper/hadoop:2.8.1安装spark镜像如果对spark版本要求不是很高,可以直接拉取别人的镜像,若要求新版本,则需要...
2018-11-03 16:29:41
1299
原创 Spark安装与配置
安装并使用Spark。安装Spark首先在官网上安装对应版本,因为已经安装了hadoop,选择without hadoop版本。执行解压、修改文件名、配置文件等操作:sudo tar -zxf spark-2.3.2-bin-without-hadoop.tgz -C /usr/local cd /usr/localsudo mv ./spark-2.3.2-bin-without-...
2018-10-31 14:54:57
699
原创 关系数据库规范化
如何设计关系数据库的各个表,减少数据冗余?数据库范式化目的减少数据中重复和冗余冗余带来的问题额外的存储开销语义不清晰数据增删改的麻烦程序员必须知道容易的存在应用程序与数据库之间的关系复杂化在关系数据库的理念中,好的模式设计应该避免冗余性能问题应该交给物理层来解决但对于实际问题中,很难做到第一范式只要满足关系的定义(笛卡尔积的子集),则满足...
2018-10-28 15:50:59
305
原创 Spark编程实践
使用Scala和Java编写Spark程序。Spark编程Scala实现sbt首先安装sbtunzip sbt-1.2.6.zip -d /usr/local/ 赋予权限sudo chown –R hadoop /usr/local/添加进环境变量PATH中vim ~/.bashrc。执行sbt version看是否安装成功,此时会下载一些依赖,确保联网。编程在/...
2018-10-26 20:19:53
560
原创 [Hadoop][distributed cache] java.lang.Exception: java.io.FileNotFoundException:
在hadoop2.7.3版本中,使用distributed cache时,如果使用新的API:URI[] cacheFiles = context.getCacheFiles();则会提示java.lang.Exception: java.io.FileNotFoundException:我估计是这个版本的bug,建议大家还是使用老的APIString localCacheFiles ...
2018-10-26 16:14:14
571
原创 java.lang.NullPointerException
我这里定义了一个List:List<String> perosonInfo;需要注意,一定需要面向对象。。需要改写成List<String> perosonInfo = new ArrayList<>();然后才能进行add等操作。...
2018-10-22 09:46:19
211
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅