自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 分布式并行数据库GreenPlum安装教程

GreenPlum是一款开源的分布式数据库存储解决方案,其主要关注在数据仓库和商业智能方面。可以在虚拟化x86服务器上运行无分享(shared-nothing)的大规模并行处理(MPP)架构。1.机器节点192.168.12.23mpp01192.168.12.24mpp02192.168.12.25mpp032.环境预备工作 (以下具体参考上篇文章)关闭防...

2019-11-08 16:30:24 870

原创 Centos 7下安装Ambari 2.6.2 + Hdp 2.6.4开源大数据平台

搭建平台之前请查看Ambari,Hdp,Centos版本之间是否兼容https://supportmatrix.hortonworks.com/1.机器节点192.168.12.21 hdp01.hadoop192.168.12.22 hdp02.hadoop192.168.12.23 hdp03.hadoop2.环境预备工作CentOS 7.5(英文版最小...

2019-11-08 15:41:57 384

原创 在Ubuntu下安装Titan图数据库

Titan是一个分布式的图数据库,支持横向扩展,可容纳数千亿个节点和边。 Titan支持事务,并且可以支撑上千用户并发进行复杂图遍历操作。在这里使用Hbase存储数据,elasticsearch做索引。Titan包含下面这些特性: 弹性与线性扩展 分布式架构,可容错 支持多数据中心的高可用和热备 支持ACID和最终一致性 支持多种存储后端 ...

2019-03-25 13:21:21 452

原创 dbutils操作mysql中文乱码

使用dbutils对mysql进行增加,查询时出现乱码问题,都是问号代替中文。C3P0配置文件如下:<c3p0-config> <default-config> <property name="jdbcUrl">jdbc:mysql://localhost:3306/blog</property> <property nam...

2018-11-04 20:52:04 902

原创 学习笔记--Flume

Apache Flume是一个分布式、可信任的弹性系统。功能:支持在日志系统中定制各类数据发送方,用于收集数据 Flume提供对数据进行简单处理,并写到各种数据接收方的能力多种数据来源:server  log : tail  -n 10000  a.log  |  grep fatal / warning http : url netcate :   ip  : por...

2018-10-19 18:50:15 177

原创 学习笔记--Hbase

Hbase是一个开源的非关系型分布式数据库属于Nosql。数据存在HDFS中也可能存在内存中,可以容错存储海量稀疏数据。Hbase的特性:高可靠 高并发读写 面向列 可伸缩 易构建行存储  vs  列存储行存储 优点:写入一次性完成,保存数据完整性 缺点:数据读取过程中产生冗余数据,若有少量数据可以忽略列村塾优点:读取过程,不会产生冗余数据,特别适合对数据完整...

2018-10-19 18:49:52 168

原创 学习笔记--中文分词之结巴分词(二)

结巴中文分词简介   1)支持三种分词模式:精确模式:将句子最精确的分开,适合文本分析 全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义 搜索引擎模式:在精确的基础上,对长词再次切分,提高召回   2)支持繁体分词   3)支持自定义词典   4)基于Trie树结构实现高效的词图扫描,生成句子汉字所有可能成词情况所构成的有向无环图(DAG)   5)  ...

2018-10-19 18:45:29 800

原创 学习笔记--NLP文本相似度之LCS(最长公共子序列)

最长公共子序列一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序列 例如:     --字符串12455与245576的最长公共子序列为2455     --字符串acdfg与adfc的最长公共子序列为adf     --字符串ABCBDAB与BDCABA的最长公共子序列为BCAB或B...

2018-10-19 18:45:12 5609

原创 学习笔记--NLP文本相似度之TF-IDF

余弦计算相似度度量相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 文本相似度计算的处理流程是:    (1)找出两篇文章的关键词; (2)每篇文章各取出若干个关键词,合并成一个集合,计算每篇文章对于这个集合中的词的词频 (3)生成两篇文章各自的词频向量; (4)计算两个向量的余弦...

2018-10-19 18:44:55 1284

原创 VM中Centos7扩容

1.首先虚拟机关机 —> 选中要扩容的虚拟机 —>编辑虚拟机设置 —> 硬盘 —> 扩展 —> 调整最大磁盘大小 —> 扩展 本教程是从20G扩展到80GCentos7内部分配 1.查看磁盘容量情况df -h2.操作分区表 fdisk /dev/sda3.重启虚拟机 reboot4.查看当前分区类型...

2018-08-17 10:41:24 7532 9

原创 Centos7最小安装化后安装图形界面

首先需要对系统进行更新yum -y upgrade然后安装桌面组件包 ,在命令行下输入下面的命令来安装 Gnome 包 yum groupinstall "GNOME Desktop" "Graphical Administration Tools" 查看和设置默认运行级别systemctl get-default systemctl set-...

2018-08-02 12:35:44 6642

原创 在Centos7下安装Anaconda3

下载Anaconda方式一:官方网站方式二:清华大学开源软件镜像站可以下载到本地,然后通过xftp上传到Contos上然后bash   Anaconda3-4.4.0-Linux-x86_64.sh该按enter按,该yes|no的yes。然后source ~/.bashrc。然后重启终端,然后输入python若期间遇到以下问题请先删除 anacon...

2018-08-01 22:03:37 6509

原创 Centos7下安装Redis过程,以及安装过程中遇到的问题及解决办法

安装redis需要有安装包,我们可以利用Linux下的wget命令。或者下载到本地通过xftp工具上传到Centos里。(本文章通过wget命令)wget /usr/local/src/ http://download.redis.io/releases/redis-2.8.3.tar.gz然后对压缩包redis-2.8.3.tar.gz进行解压,使用命令解压:tar zxvf  re...

2018-07-23 12:30:03 1079

原创 学习笔记--中文分词(一)

背景要解决中文分词准确度问题,是否可以提供一个免费版本的通用分词程序          --像分词这种自然语言处理领域的问题,很难彻底完全解决          --每个行业或业务侧重不同,分词工具设计策略也是不一样的中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过...

2018-07-20 16:05:40 266

原创 Centos6.5,Centos7分别关闭selinux和防火墙

Centos6.5关闭selinux:永久有效:修改/etc/sysconfig/selinux将文本中的SELINUX=enforcing,改为SELINUX=disabled。然后重启即时有效:setenforce  0      查看状态:getenforce关闭防火墙:永久性生效:chkconfig iptables off         ,然后重启即时生效:service iptabl...

2018-07-06 23:20:06 10454 1

原创 linux,vim常用命令

文件常用操作命令日常操作命令:pwd:查看当前所在工作目录date:当前系统的时间last:最近登陆历史记录su - : 切换为root用户rpm -qa | grep mysql:查看系统中是否安装了mysql包who :查看当前登陆用户w:查看当前系统信息和用户登录信息tar zxvf xxx.gz :解压 tarzcvf xx....

2018-07-06 22:48:12 207

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除