- 博客(16)
- 收藏
- 关注
原创 分布式并行数据库GreenPlum安装教程
GreenPlum是一款开源的分布式数据库存储解决方案,其主要关注在数据仓库和商业智能方面。可以在虚拟化x86服务器上运行无分享(shared-nothing)的大规模并行处理(MPP)架构。1.机器节点192.168.12.23mpp01192.168.12.24mpp02192.168.12.25mpp032.环境预备工作 (以下具体参考上篇文章)关闭防...
2019-11-08 16:30:24 870
原创 Centos 7下安装Ambari 2.6.2 + Hdp 2.6.4开源大数据平台
搭建平台之前请查看Ambari,Hdp,Centos版本之间是否兼容https://supportmatrix.hortonworks.com/1.机器节点192.168.12.21 hdp01.hadoop192.168.12.22 hdp02.hadoop192.168.12.23 hdp03.hadoop2.环境预备工作CentOS 7.5(英文版最小...
2019-11-08 15:41:57 384
原创 在Ubuntu下安装Titan图数据库
Titan是一个分布式的图数据库,支持横向扩展,可容纳数千亿个节点和边。 Titan支持事务,并且可以支撑上千用户并发进行复杂图遍历操作。在这里使用Hbase存储数据,elasticsearch做索引。Titan包含下面这些特性: 弹性与线性扩展 分布式架构,可容错 支持多数据中心的高可用和热备 支持ACID和最终一致性 支持多种存储后端 ...
2019-03-25 13:21:21 452
原创 dbutils操作mysql中文乱码
使用dbutils对mysql进行增加,查询时出现乱码问题,都是问号代替中文。C3P0配置文件如下:<c3p0-config> <default-config> <property name="jdbcUrl">jdbc:mysql://localhost:3306/blog</property> <property nam...
2018-11-04 20:52:04 902
原创 学习笔记--Flume
Apache Flume是一个分布式、可信任的弹性系统。功能:支持在日志系统中定制各类数据发送方,用于收集数据 Flume提供对数据进行简单处理,并写到各种数据接收方的能力多种数据来源:server log : tail -n 10000 a.log | grep fatal / warning http : url netcate : ip : por...
2018-10-19 18:50:15 177
原创 学习笔记--Hbase
Hbase是一个开源的非关系型分布式数据库属于Nosql。数据存在HDFS中也可能存在内存中,可以容错存储海量稀疏数据。Hbase的特性:高可靠 高并发读写 面向列 可伸缩 易构建行存储 vs 列存储行存储 优点:写入一次性完成,保存数据完整性 缺点:数据读取过程中产生冗余数据,若有少量数据可以忽略列村塾优点:读取过程,不会产生冗余数据,特别适合对数据完整...
2018-10-19 18:49:52 168
原创 学习笔记--中文分词之结巴分词(二)
结巴中文分词简介 1)支持三种分词模式:精确模式:将句子最精确的分开,适合文本分析 全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义 搜索引擎模式:在精确的基础上,对长词再次切分,提高召回 2)支持繁体分词 3)支持自定义词典 4)基于Trie树结构实现高效的词图扫描,生成句子汉字所有可能成词情况所构成的有向无环图(DAG) 5) ...
2018-10-19 18:45:29 800
原创 学习笔记--NLP文本相似度之LCS(最长公共子序列)
最长公共子序列一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序列 例如: --字符串12455与245576的最长公共子序列为2455 --字符串acdfg与adfc的最长公共子序列为adf --字符串ABCBDAB与BDCABA的最长公共子序列为BCAB或B...
2018-10-19 18:45:12 5609
原创 学习笔记--NLP文本相似度之TF-IDF
余弦计算相似度度量相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 文本相似度计算的处理流程是: (1)找出两篇文章的关键词; (2)每篇文章各取出若干个关键词,合并成一个集合,计算每篇文章对于这个集合中的词的词频 (3)生成两篇文章各自的词频向量; (4)计算两个向量的余弦...
2018-10-19 18:44:55 1284
原创 VM中Centos7扩容
1.首先虚拟机关机 —> 选中要扩容的虚拟机 —>编辑虚拟机设置 —> 硬盘 —> 扩展 —> 调整最大磁盘大小 —> 扩展 本教程是从20G扩展到80GCentos7内部分配 1.查看磁盘容量情况df -h2.操作分区表 fdisk /dev/sda3.重启虚拟机 reboot4.查看当前分区类型...
2018-08-17 10:41:24 7532 9
原创 Centos7最小安装化后安装图形界面
首先需要对系统进行更新yum -y upgrade然后安装桌面组件包 ,在命令行下输入下面的命令来安装 Gnome 包 yum groupinstall "GNOME Desktop" "Graphical Administration Tools" 查看和设置默认运行级别systemctl get-default systemctl set-...
2018-08-02 12:35:44 6642
原创 在Centos7下安装Anaconda3
下载Anaconda方式一:官方网站方式二:清华大学开源软件镜像站可以下载到本地,然后通过xftp上传到Contos上然后bash Anaconda3-4.4.0-Linux-x86_64.sh该按enter按,该yes|no的yes。然后source ~/.bashrc。然后重启终端,然后输入python若期间遇到以下问题请先删除 anacon...
2018-08-01 22:03:37 6509
原创 Centos7下安装Redis过程,以及安装过程中遇到的问题及解决办法
安装redis需要有安装包,我们可以利用Linux下的wget命令。或者下载到本地通过xftp工具上传到Centos里。(本文章通过wget命令)wget /usr/local/src/ http://download.redis.io/releases/redis-2.8.3.tar.gz然后对压缩包redis-2.8.3.tar.gz进行解压,使用命令解压:tar zxvf re...
2018-07-23 12:30:03 1079
原创 学习笔记--中文分词(一)
背景要解决中文分词准确度问题,是否可以提供一个免费版本的通用分词程序 --像分词这种自然语言处理领域的问题,很难彻底完全解决 --每个行业或业务侧重不同,分词工具设计策略也是不一样的中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过...
2018-07-20 16:05:40 266
原创 Centos6.5,Centos7分别关闭selinux和防火墙
Centos6.5关闭selinux:永久有效:修改/etc/sysconfig/selinux将文本中的SELINUX=enforcing,改为SELINUX=disabled。然后重启即时有效:setenforce 0 查看状态:getenforce关闭防火墙:永久性生效:chkconfig iptables off ,然后重启即时生效:service iptabl...
2018-07-06 23:20:06 10454 1
原创 linux,vim常用命令
文件常用操作命令日常操作命令:pwd:查看当前所在工作目录date:当前系统的时间last:最近登陆历史记录su - : 切换为root用户rpm -qa | grep mysql:查看系统中是否安装了mysql包who :查看当前登陆用户w:查看当前系统信息和用户登录信息tar zxvf xxx.gz :解压 tarzcvf xx....
2018-07-06 22:48:12 207
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人