- 博客(25)
- 资源 (3)
- 收藏
- 关注
原创 HBASE原理
行式存储与列式存储介绍存储特点行式存储维护大量 的索引存储成本比较高 不能做到线性扩展对于随机读取的效率比较高对事物支持好列式存储对数据进行压缩 每一列进行聚合 度每一列相似性属性进行压缩并行查询...
2019-03-29 11:59:11 195
原创 MongoDB更新数组操作符
set1.set如果不存在,就创建db.students.update({stuname:"zzxb"},{$set:{aihao:"篮球,足球"}})db.students.update({stuname:"小黑"},{$set:{aihao:["篮球","足球"]}})db.students.update({stuname:"小黑"},{$push:{aihao:"...
2019-03-29 10:56:25 675
原创 Hive的数据存储
Hive的数据存储基于HDFS表没有专门的数据存储格式存储结构主要包括:数据库 文件 表 视图可以直接接在文本文件(.txt)创建表时,指定Hive数据的列分隔符和行分隔符表内部表 Table分区表 Partition外部表 External Table桶表 Bucket Table内部表Table与数据库中的Table在概念上是类似的每一个Table在Hive...
2019-03-26 20:35:31 2661
原创 Hive的基本数据类型
Hive的基本数据类型复杂数据类型Array 数组,每一列相同数据类型的元素组成Map 集合 key-valueStruct 结构 ,可以包含不同数据类型的元素,这些元素可以通过"点语法"的方式来得到所需元素创建数组创建MapArray 和 Map结合创建创建Struct时间类型Date:Hive0.12.0开始支持Timestamp:Hive0.8.0开始支...
2019-03-26 18:27:24 697
原创 Hive管理的三种方式
CLI Web 远程服务启动CLI 命令行方式hivehive --service cil退出quit;exit;清屏Ctrl + L!clear查看数据仓库中的表show tables;查看数据仓库中的内置函数show function;常用的CLI命令查看表名desc 表名查看HDFS上的文件dfs -ls 目录执行操作系统的命令! ...
2019-03-26 12:11:12 885
原创 Hive的体系结构
Hive的元数据Hive将元数据存储在数据库中 支持derby(默认)mysqloracle(没人用)什么是元数据Hive的元数据包括:表的名字表的列和分区及其属性表的属性(是否为外部表)表的数据所在的目录等HQL语句在hive中进行查询HQL的执行过程解释器编译器优化器共同完成对HQL语句从词法分析、语法分析、编译、优化以及**查询计划(Plan)*...
2019-03-26 08:53:45 243
原创 机器学习100天-9-支持向量机(SVM)
SVM简介支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。S...
2019-03-17 22:26:02 414
原创 Hive安装
前提 Hadoop环境可以参考:Hadoop分布式安装Hive 安装步骤和安装hadoop一致,可以上面的博客链接ubuntu@master1:/soft$ sudo cat /etc/environment JAVA_HOME=/soft/jdkHADOOP_HOME=/soft/hadoopHIVE_HOME=/soft/hivePATH="/usr/local/sbin:/...
2019-03-17 12:35:24 145
原创 Hadoop分布式安装
前期准备1安装虚拟机安装Ubuntu不同的启动模式ctrl alt + f6 //文本模式ctrl alt + f7 //桌面模式开机进入文本模式1 修改/etc/default/grub#开进进入图形 模式#GRUB_CMDLINE_LINUX_DEFAULT="quiet"#开进进入文本模式跟新使生效sudo update-grub重启sudo reb
2019-03-16 16:59:03 194
原创 机器学习100天-8-逻辑回归的代码实现
条件预设决策2*x1 - x2 - 4 为正例 否则为负例采样误差假设数据采集过程中有误差,误差服从正在分布N(0,1)数据集x1 x2 都在区间[-5,5]之间均匀分布,随机采取500个样点作为数据集数据采样误差分析模型参数求解实现.pyimport sysfrom numpy import *def loadData(fn): dataMa...
2019-03-16 09:40:32 190
原创 IDEA Maven用Java实现Mongo增删改查
准备Mongo数据库Docker连编部署mongo yml部署创建Mongo数据库use skeduIDEA创建Maven项目new project ------> Maven ------->Create from archetype //选择自动导入org.apache.maven.archetypes:maven-archetype-quickstart编...
2019-03-15 17:12:36 1910
原创 机器学习100天-6-逻辑回归探究
数据集 | 社交网络该数据集包含了社交网络中用户的信息。这些信息涉及用户ID,性别,年龄以及预估薪资。一家汽车公司刚刚推出了他们新型的豪华SUV,我们尝试预测哪些用户会购买这种全新SUV。并且在最后一列用来表示用户是否购买。我们将建立一种模型来预测用户是否购买这种SUV,该模型基于两个变量,分别是年龄和预计薪资。因此我们的特征矩阵将是这两列。我们尝试寻找用户年龄与预估薪资之间的某种相关性,以...
2019-03-14 21:10:44 304
原创 机器学习100天-5-逻辑回归探究
LRlogistic回归,是一种广义的线性回归分析模型常用与数据挖掘 疾病自动诊断 经济预测优点计算地阿基啊相对较低思路清晰易于理解和实现缺点线性分类器 容易欠拟合分类精度不高逻辑回归简介名为回归 实质为分类ps:默认为列向量 转置为行向量过程特征向量线性变换Sigmoid预测结果逻辑回归模型性质线性分类器 无特殊处理 无法解决非线性问题...
2019-03-13 11:17:53 218
原创 Redis入门简介
NoSQlNot Only SQL非关系型数据库为什么需要NoSQl高并发读写 High perfoemance海量数据高效存储和访问 Huge Storage高可扩展性和高可用性 High Scalability && High Availability主流NoSQlNoSQl四大分类键值对(key-value)列存储文档数据库图形数据库N...
2019-03-12 22:11:29 101
原创 机器学习100天-4-逻辑回归
逻辑回归原理解决分类问题逻辑回归既可以看做是一个回归算法,也可以看做是分类算法通常作为分类算法使用,只可以解决二分问题
2019-03-12 21:30:02 111
原创 机器学习100天-3-多远线性回归
步骤第1步: 数据预处理导入库import pandas as pdimport numpy as np导入数据集dataset = pd.read_csv('50_Startups.csv')X = dataset.iloc[ : , :-1].valuesY = dataset.iloc[ : , 4 ].values将类别数据数字化from sklearn.pre...
2019-03-11 21:18:34 207
原创 Hive简介
数据仓库定义数据仓库就是一个面向主题的,集成的,不可更新的,随时间不变化的数据集合用于支持企业决策分析处理专门用来做查询数据仓库的结构和建立过程1数据源2 数据存储及转换不同的规则可能不一样进行一定的转换,挑选满足格式的数据满足格式的数据进行存储3 数据仓库引擎不同的服务器提供不同的服务4 前台OLTP OLAP数据处理大致可以分成两大类:联机事务处...
2019-03-10 21:09:05 203
原创 机器学习100天-2-线性回归
目录1 数据预处理100-12 训练集训练线性回归模型from sklearn.linear_model import LinearRegression创建LinearRegression类的regressor对象fit():将regressor对象对数据集进行训练3 预测结果输出保存在Y_pred中用前一步训练的回归模型regerssor的LinearRegressio...
2019-03-10 18:39:48 148
原创 机器学习100天-1-数据预处理
目录1 导库NumPy:数学计算函数Pandas:导入和管理数据集2 导入数据集.csv:文本形式保存表格数据,一行一条数据pd.read_csv:读取本地csv作为一个数据帧数据帧制作自变量 因变量的矩阵和向量3 处理丢失数据丢失的数据会降低模型性能sklearn.preprocessing.Imputer:整列平均值(中间值)代替丢失4 解析分类数据分类数据:不...
2019-03-09 22:32:32 214
原创 用Docker创建tomcat镜像的容器并部署实例并查看
创建好tomcat项目略下载tomcat镜像sudo docker pull tomcat创建tomacat容器1 docker run并挂载数据卷/$ docker run -d -p 8083:8080 -v /yundata/docker-data/webapps/myapps/mytomcat/:/usr/local/tomcat/webapps/mytomcat/ tom...
2019-03-07 16:13:31 1362
原创 Docker连编部署mongo yml部署
docker安装Linux下可以参考我的另一篇博客:Docker 基础入门+实例(2)Mac下安装可以参考:略配置国内加速源Linux下可以参考Docker 基础入门+实例(2)Mac下需要配置docker查找imagesudo docker search mongo下载mongosudo docker pull mongo查看下载好的镜像sudo docke...
2019-03-06 17:33:07 1455
原创 SSH实现员工管理系统
SSH框架Hibernate单独使用没有整合Springpublci class BookDao{ public void save(Book book) //加载Hibernate核心配置问价 Configuration cfg = new Configuration().configure(); //创建SessionFactory 对象 SessionFactory...
2019-03-02 16:07:01 774
原创 Spring事务管理
GET技能1 前端bootstrapjqueryfreemarkercss,js封装2 后端Spring mvc Spring aopmybatisshiro3 构建部署Maven构建新浪SAE部署Nginx部署Spring事务管理事务Spring事务管理的一组APISpring的编程式事物管理Spring的声名式事务管理事物介绍...
2019-03-02 12:02:41 152
hdfs_jar.zip
2020-08-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人