小崔崔啊-CSDN博客

原创分布式并行数据库GreenPlum安装教程

GreenPlum是一款开源的分布式数据库存储解决方案，其主要关注在数据仓库和商业智能方面。可以在虚拟化x86服务器上运行无分享（shared-nothing）的大规模并行处理（MPP）架构。1.机器节点192.168.12.23mpp01192.168.12.24mpp02192.168.12.25mpp032.环境预备工作（以下具体参考上篇文章）关闭防...

2019-11-08 16:30:24 870

原创 Centos 7下安装Ambari 2.6.2 + Hdp 2.6.4开源大数据平台

搭建平台之前请查看Ambari,Hdp,Centos版本之间是否兼容https://supportmatrix.hortonworks.com/1.机器节点192.168.12.21 hdp01.hadoop192.168.12.22 hdp02.hadoop192.168.12.23 hdp03.hadoop2.环境预备工作CentOS 7.5（英文版最小...

2019-11-08 15:41:57 384

原创在Ubuntu下安装Titan图数据库

Titan是一个分布式的图数据库，支持横向扩展，可容纳数千亿个节点和边。 Titan支持事务，并且可以支撑上千用户并发进行复杂图遍历操作。在这里使用Hbase存储数据，elasticsearch做索引。Titan包含下面这些特性: 弹性与线性扩展分布式架构，可容错支持多数据中心的高可用和热备支持ACID和最终一致性支持多种存储后端 ...

2019-03-25 13:21:21 452

原创 dbutils操作mysql中文乱码

使用dbutils对mysql进行增加，查询时出现乱码问题，都是问号代替中文。C3P0配置文件如下：<c3p0-config> <default-config> <property name="jdbcUrl">jdbc:mysql://localhost:3306/blog</property> <property nam...

2018-11-04 20:52:04 902

原创学习笔记--Flume

Apache Flume是一个分布式、可信任的弹性系统。功能：支持在日志系统中定制各类数据发送方，用于收集数据 Flume提供对数据进行简单处理，并写到各种数据接收方的能力多种数据来源：server log : tail -n 10000 a.log | grep fatal / warning http : url netcate : ip : por...

2018-10-19 18:50:15 177

原创学习笔记--Hbase

Hbase是一个开源的非关系型分布式数据库属于Nosql。数据存在HDFS中也可能存在内存中，可以容错存储海量稀疏数据。Hbase的特性：高可靠高并发读写面向列可伸缩易构建行存储 vs 列存储行存储优点：写入一次性完成，保存数据完整性缺点：数据读取过程中产生冗余数据，若有少量数据可以忽略列村塾优点：读取过程，不会产生冗余数据，特别适合对数据完整...

2018-10-19 18:49:52 168

原创学习笔记--中文分词之结巴分词(二)

结巴中文分词简介 1）支持三种分词模式：精确模式：将句子最精确的分开，适合文本分析全模式：句子中所有可以成词的词语都扫描出来，速度快，不能解决歧义搜索引擎模式：在精确的基础上，对长词再次切分，提高召回 2）支持繁体分词 3）支持自定义词典 4）基于Trie树结构实现高效的词图扫描，生成句子汉字所有可能成词情况所构成的有向无环图（DAG） 5) ...

2018-10-19 18:45:29 800

原创学习笔记--NLP文本相似度之LCS（最长公共子序列）

最长公共子序列一个序列S任意删除若干个字符得到的新序列T，则T叫做S的子序列两个序列X和Y的公共子序列中，长度最长的那个，定义为X和Y的最长公共子序列例如： --字符串12455与245576的最长公共子序列为2455 --字符串acdfg与adfc的最长公共子序列为adf --字符串ABCBDAB与BDCABA的最长公共子序列为BCAB或B...

2018-10-19 18:45:12 5609

原创学习笔记--NLP文本相似度之TF-IDF

余弦计算相似度度量相似度度量（Similarity），即计算个体间的相似程度，相似度度量的值越小，说明个体间相似度越小，相似度的值越大说明个体差异越大。文本相似度计算的处理流程是: （1）找出两篇文章的关键词；　（2）每篇文章各取出若干个关键词，合并成一个集合，计算每篇文章对于这个集合中的词的词频　（3）生成两篇文章各自的词频向量；　（4）计算两个向量的余弦...

2018-10-19 18:44:55 1284

原创 VM中Centos7扩容

1.首先虚拟机关机 —> 选中要扩容的虚拟机 —>编辑虚拟机设置 —> 硬盘 —> 扩展 —> 调整最大磁盘大小 —> 扩展本教程是从20G扩展到80GCentos7内部分配 1.查看磁盘容量情况df -h2.操作分区表 fdisk /dev/sda3.重启虚拟机 reboot4.查看当前分区类型...

2018-08-17 10:41:24 7532 9

原创 Centos7最小安装化后安装图形界面

首先需要对系统进行更新yum -y upgrade然后安装桌面组件包，在命令行下输入下面的命令来安装 Gnome 包 yum groupinstall "GNOME Desktop" "Graphical Administration Tools" 查看和设置默认运行级别systemctl get-default systemctl set-...

2018-08-02 12:35:44 6642

原创在Centos7下安装Anaconda3

下载Anaconda方式一：官方网站方式二：清华大学开源软件镜像站可以下载到本地，然后通过xftp上传到Contos上然后bash Anaconda3-4.4.0-Linux-x86_64.sh该按enter按，该yes|no的yes。然后source ~/.bashrc。然后重启终端，然后输入python若期间遇到以下问题请先删除 anacon...

2018-08-01 22:03:37 6509

原创 Centos7下安装Redis过程，以及安装过程中遇到的问题及解决办法

安装redis需要有安装包，我们可以利用Linux下的wget命令。或者下载到本地通过xftp工具上传到Centos里。（本文章通过wget命令）wget /usr/local/src/ http://download.redis.io/releases/redis-2.8.3.tar.gz然后对压缩包redis-2.8.3.tar.gz进行解压，使用命令解压：tar zxvf re...

2018-07-23 12:30:03 1079

原创学习笔记--中文分词(一)

背景要解决中文分词准确度问题，是否可以提供一个免费版本的通用分词程序 --像分词这种自然语言处理领域的问题，很难彻底完全解决 --每个行业或业务侧重不同，分词工具设计策略也是不一样的中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过...

2018-07-20 16:05:40 266

原创 Centos6.5,Centos7分别关闭selinux和防火墙

Centos6.5关闭selinux:永久有效：修改/etc/sysconfig/selinux将文本中的SELINUX=enforcing，改为SELINUX=disabled。然后重启即时有效：setenforce 0 查看状态：getenforce关闭防火墙：永久性生效：chkconfig iptables off ,然后重启即时生效：service iptabl...

2018-07-06 23:20:06 10454 1

原创 linux,vim常用命令

文件常用操作命令日常操作命令：pwd:查看当前所在工作目录date:当前系统的时间last：最近登陆历史记录su - : 切换为root用户rpm -qa | grep mysql:查看系统中是否安装了mysql包who ：查看当前登陆用户w:查看当前系统信息和用户登录信息tar zxvf xxx.gz :解压 tarzcvf xx....

2018-07-06 22:48:12 207

qq_36527339的博客