学习笔记
小崔崔啊
生命在于运动,技术在于折腾
展开
-
Centos7下安装Redis过程,以及安装过程中遇到的问题及解决办法
安装redis需要有安装包,我们可以利用Linux下的wget命令。或者下载到本地通过xftp工具上传到Centos里。(本文章通过wget命令)wget /usr/local/src/ http://download.redis.io/releases/redis-2.8.3.tar.gz然后对压缩包redis-2.8.3.tar.gz进行解压,使用命令解压:tar zxvf re...原创 2018-07-23 12:30:03 · 1052 阅读 · 0 评论 -
学习笔记--NLP文本相似度之LCS(最长公共子序列)
最长公共子序列一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序列 例如: --字符串12455与245576的最长公共子序列为2455 --字符串acdfg与adfc的最长公共子序列为adf --字符串ABCBDAB与BDCABA的最长公共子序列为BCAB或B...原创 2018-10-19 18:45:12 · 5491 阅读 · 0 评论 -
学习笔记--中文分词(一)
背景要解决中文分词准确度问题,是否可以提供一个免费版本的通用分词程序 --像分词这种自然语言处理领域的问题,很难彻底完全解决 --每个行业或业务侧重不同,分词工具设计策略也是不一样的中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过...原创 2018-07-20 16:05:40 · 241 阅读 · 0 评论 -
学习笔记--中文分词之结巴分词(二)
结巴中文分词简介 1)支持三种分词模式:精确模式:将句子最精确的分开,适合文本分析 全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义 搜索引擎模式:在精确的基础上,对长词再次切分,提高召回 2)支持繁体分词 3)支持自定义词典 4)基于Trie树结构实现高效的词图扫描,生成句子汉字所有可能成词情况所构成的有向无环图(DAG) 5) ...原创 2018-10-19 18:45:29 · 762 阅读 · 0 评论 -
学习笔记--Flume
Apache Flume是一个分布式、可信任的弹性系统。功能:支持在日志系统中定制各类数据发送方,用于收集数据 Flume提供对数据进行简单处理,并写到各种数据接收方的能力多种数据来源:server log : tail -n 10000 a.log | grep fatal / warning http : url netcate : ip : por...原创 2018-10-19 18:50:15 · 157 阅读 · 0 评论 -
学习笔记--NLP文本相似度之TF-IDF
余弦计算相似度度量相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 文本相似度计算的处理流程是: (1)找出两篇文章的关键词; (2)每篇文章各取出若干个关键词,合并成一个集合,计算每篇文章对于这个集合中的词的词频 (3)生成两篇文章各自的词频向量; (4)计算两个向量的余弦...原创 2018-10-19 18:44:55 · 1247 阅读 · 0 评论 -
学习笔记--Hbase
Hbase是一个开源的非关系型分布式数据库属于Nosql。数据存在HDFS中也可能存在内存中,可以容错存储海量稀疏数据。Hbase的特性:高可靠 高并发读写 面向列 可伸缩 易构建行存储 vs 列存储行存储 优点:写入一次性完成,保存数据完整性 缺点:数据读取过程中产生冗余数据,若有少量数据可以忽略列村塾优点:读取过程,不会产生冗余数据,特别适合对数据完整...原创 2018-10-19 18:49:52 · 153 阅读 · 0 评论