塵世星空-CSDN博客

原创【NLP篇-分词】分词的几种方法综述

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-01-03 09:00:36 3025

原创【Elasticsearch篇】Elasticsearch的安装和使用

第一部分：ES简介 1.首先理解Lucene是什么？ Lucene是一个全文搜索的框架，就像个jar，暴露出很多的接口和方法供开发者使用，是一项技术。而不是应用产品。因此它并不像http://www.baidu.com/ 或者google Desktop那么拿来就能用，它只是提供了一种工具让你能实现这些产品。 2.lucene能做什么？本质就是给搜索内容定位第二部分：ES搭建...

2018-12-28 19:07:19 15956

原创【NLP篇】word2vec原理到应用（附Glove）

备：之前的文章中提到的word2vec，很多只是片面的提及而未做详细的总结。这篇对w2v的数学角度的原理及其应用做简要总结，以抛砖引玉。1.word2vec是什么？word2vec是google在2013年推出的一款获取word vector的工具包，简单、高效。其严格来说不输入深度学习范畴，只是浅层结构。2.word2vec的原理首先推荐一些资料：《word2vec中的数学原理》wor...

2018-12-21 11:21:35 614

原创【NLP篇-基础汇总】词向量表示比较

备：由于工作内容涉及到一些NLP的东西，此【NLP篇】主要从基础的原理开始整理到实际的应用。1.NLP的基本问题NLP的应用方向很广，但实际落地的产品的效果并没有像图像处理那样可以达到很高的精度。以下大方面的说主要有：自动分词、句法分析、语法纠错、关键词提取；文本分类/聚类，文本自动摘要；信息检索（ES,Solr），机器翻译，提问和回答，人机对话，考试机器人，机器写作；语言生成、语音识别...

2018-12-04 17:07:21 762

原创【spark篇】spark集群基于不同模式下搭建及过程分析

第一部分：基于standalone集群搭建规划：node01为主节点，node02,node03为从节点。一、配置项操作node01: 1.修改conf下的slaves文件修改localhost为node02和node03 从节点2.修改spark-env.sh export SPARK_MASTER_IP=node01 export SPARK_MAS...

2018-06-07 18:35:00 436

原创【云计算篇】虚拟化kvm相关

第一部分：kvm简介是 Kernel-based Virtual Machine 的简称，KVM 要求 CPU 支持硬件虚拟化技术（如 intel VT 或 AMD-V），是 Linux 下的全虚拟化解决方案。 KVM 由处于内核态的 KVM 模块和用户态的 QEMU 两部分构成。 KVM 虚拟化技术是当前云计算中计算虚拟化的主流技术，是云计算的核心底层能力，使用 KVM 把多台物理机虚拟...

2018-05-06 23:02:01 318

原创【云计算篇】OpenStack规划与安装

第一部分：OpenStack简介首先列举下云计算的类型。根据所提供服务的类型，云计算有以下三种落地方式： 1、Iaas（基础架构即服务），用户能从中申请到硬件或虚拟硬件，包括裸机或虚拟机，然后在上边安装操作系统或其他应用程序。 2、PaaS（平台即服务），用户能从中申请到一个安装了操作系统以及支撑应用程序运行所需要的运行库等软件的物理机或虚拟机，然后在上边安装其他应用...

2018-05-06 23:01:45 1229

原创【Strom篇】Flume+Kafaka+Strom整合完成信息记录

第一部分：流程分析由flume收集客户端发送的信息，经过kafka集群消费者收集，然后给storm集群数据处理（数据清洗），最后再发给kafka集群收集。第二部分：集群搭建 flume+kafka 一、配合flume 修改flume-env.sh里的JAVA_HOME的位置，（flume仅修改此处）（若查看flume的版本通过：./bin flume-ng version...

2018-05-06 18:01:56 1094

原创【Storm篇】Storm的集群搭建以及并发、通信机制、事务

第一部分：Storm的集群模式简介：由Nimbus主节点发送搭建过程介绍: 一、单机版环境准备： Java 6+ Python 2.6.6+ // python -V 查看版本搭建过程： 1.解压storm压缩包，在里面新建logs的文件。 2.通过查看help获取帮助执行。./bin/storm help 3.启动zk并设置日志输出：./bin/...

2018-05-06 17:19:23 554

原创【心得篇】学习心得总结篇

一、有目的学习的重要性分享下一个感觉很不错的学习方法：学习一个东西前一定要目标感，学习前要列举问题，多问几个问什么，然后带着这些问题到书或视频里去寻找答案。即有目的地去搜索，主动去学习。比如学习redis，可能会有这样的问题： 1.为什么要有缓存？ 2.缓存和应用程序是在一个进程内还是不同的进程？ 3.缓存在本机还是网络上？ 4.数据是什么格式的？ 5....

2018-04-23 18:43:04 1303

原创【网络篇】几种网络模式

第一、网络模式的介绍一.NAT模式图解NAT模式下不同的客户端访问百度发送包和接收过程。二.桥接模式1.由NAT模式切换到桥接模式的方式先添加桥接模式 2.制作ifcfg-eth1网络配置文件 cd /etc/sysconfig/network-scripts/ cp ifcfg-eth0 ifcfg-eth1删除有关地址的配置。原因，桥接模式的时候，物理地...

2018-04-15 17:46:56 2379

原创【linux篇】常用的操作

一、免密钥操作第一种：dsa 1.cd ~/.ssh/ 2.ssh-keygen -t dsa -P ’ ’ -f ~/.ssh/id_dsa // 若没有id_dsa.pub 则生成公钥文件 3.scp id_dsa.pub node01:pwd/node03.pub // 分发公钥给其他的节点并重命名注:pwd左右有“字符。 4.cat node04.pu...

2018-04-08 18:19:32 279

原创【Spark篇】sparkCore初识-RDD相关

官方文档：http://spark.apache.org/ 第一部分： spark 整体的相关的介绍一、什么是spark 基于官网的介绍：Apache Spark™ is a fast and general engine for large-scale data processing.【对于处理大规模的数据的快速并且通用的引擎】Apache Spark is an open ...

2018-04-06 19:31:53 279

原创【Scala篇】Scala的基本语法使用

第一部分：基本语法1.基本数据类型层级关系： 2.变量和常量的声明 1.定义变量或者常量的时候，也可以写上返回的类型，一般省略，如：val a:Int = 10 2.常量不可再赋值eg：/*** 定义变量和常量* 变量 :用 var 定义，可修改 * 常量 :用 val 定义，不可修改*/ var name = "cx" ...

2018-04-04 18:28:51 424

原创【Flume-工具篇】Flume的安装及使用

官网地址：http://flume.apache.org/第一部分：Flume简介 Flume 是分布式的日志收集系统，可以处理各种类型各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy、自定义等分析：整个Agent（代理）组件，有sourc...

2018-03-28 09:35:07 1517

原创【zookeeper篇】zookeeper的安装及使用

第一部分：zookeeper的简介Zookeeper 是 Google 的 Chubby一个开源的实现，是 Hadoop 的分布式协调服务 service 包含一个简单的原语集，分布式应用程序可以基于它实现：开源领域首屈一指特点： zkfc是zk的客户端，就hdfs来说，zkfc连接这zk和NN。节点启动后第一步在zk集群里完成注册。创建节点。当某个NN挂掉...

2018-03-20 22:42:56 373

原创【redis篇】redis的单节点/集群方式搭建及说明

第一部分:安装 1.单节点搭建1.安装版本 redis-2.8.18.tar.gz2.解压 tar xf xxx3.下载gcc，tcl 命令编译器 yum -y install gcc tcl (命令名字别写错)4.编译、创建目录、拷贝make && make PREFIX=/opt/jw/redis install5.配置环变： EXPORT REDIS_PR...

2018-03-20 08:02:31 2328

原创【redis篇】redis持久化操作

什么是持久化？将数据从掉电易失的内存存放到能够永久存储的设备上 Redis持久化方式 RDB（Redis DB） hdfs: fsimage AOF（AppendOnlyFile） hdfs : edit logs 默认关闭的第一种：RDB方式存储在默认情况下，Redis 将数据库快照保存在名字为 dump.rdb的二进制文件中方式：产生一个RDB...

2018-03-19 18:25:55 253

原创【redis篇】redis几种数据模型的使用

一、help操作 1.进入客户端 redis-cli2.查看帮助 help几种方式：有问题就通过help查看怎么使用Type: "help @<group>" to get a list of commands in <group> "help <command>" for help on <command> ...

2018-03-19 17:56:04 3040

原创【FastDFS篇】FastDFS单节点安装及使用

FastDFS官网地址（中）：http:www.csource.org/ FastDFS官网地址（英）：http://code.google.com/p/fastdfs/ 软件包下载地址：http://sourceforge.net/projects/fastdfs/files/ 源码包下载地址：https://github.com/happyfish100/ 学习地址：http://bb...

2018-03-17 12:54:36 4530 2

原创 HBase安装及使用

第一部分：搭建一、伪分布式:1.依赖java环境，所以jdk必须先安装2.conf先的hbase-env.sh 下的java_home的路径需要修改3.修改hbase-site.xml<configuration> <property> <name>hbase.rootdir</name> <valu...

2018-03-13 18:01:04 473

原创【HIVE篇】HIVE的使用

一、基本的表操作 1.创建表： create table testTable( id int, name string, likes array<string>, address map<string,string>)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' COLLECTIO...

2018-03-07 09:50:27 665

原创【Hive篇】Hive的安装

HIVE的搭建比较简单，依托于Hadopp集群，以及mysql服务端。多种搭建方式，主要介绍单一用户和多用户的场景，其中node01放置mysql服务端，node02放hive的单一用户模式。（node03和node04用于多用户模式，03为服务端，04为客户端）那么搭建开始吧：准备环境：安装mysqlServer yum 安装，启动，service mysqld start...

2018-03-04 12:54:48 174

原创【HDFS篇】HDFS的常用的命令操作汇总

一、HDFS 基本的检查操作如下：部分举例如下： 1、查看空间使用情况：hdfs dfs -df -h Filesystem Size Used Available Use% hdfs://mycluster 288.8 G 34.4 M 269.2 G 0%2、查看文件列表：hdfs dfs -ls / Found 4 item...

2018-02-28 14:46:40 699

原创【MapReduce篇】MR过程分析

Mapreduce原语：“相同”的key为一组，调用一次reduce方法，方法内迭代这一组数据进行计算为什么叫MapReduce：MapTask & ReduceTask 整体运行流程图解： mapreduce 框架可以分为五个不同实体：1）客户端：提交 MapReduce job。2）Yarn 资源管理器（resource manager）：协调集群计算资源的分配...

2018-02-27 17:27:35 1118

原创【python篇】python基础之--基本问题记录

第一：保留字python的保留字查看所有的保留字命令：【在ipython里操作退出用：quit】 import keyword keyword.kwlistand as assert break class continue def del elif else except exec ...

2018-02-09 06:45:18 792

原创【HDFS篇】完全分布式基于HA搭建HDFS集群(ZK+ZKFC+JN）

原理解释：//TODO:搭建过程记录：主要2大步，搭建zookeeper和配置HDFS 1.先搭建zookeeper 配置3台机器，先配置好一台然后分发到不同的机器上。解压完先配环境变量。 vi /etc/profileexport JAVA_HOME=/usr/java/jdk1.7.0_67export HADOOP_PREFIX=/opt/jw/hadoop-

2018-02-02 16:36:50 1323

原创【YARN篇】基于HA的YARN集群搭建

1.简介：YARN是在hadoop2.x出现的，不参与计算，只是资源的调控者。它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 YARN的基本思想是将Hadoop1.x时候的JobTracker的两个主要功能（资源管理和作业调度/监控）分离。主要方法是创建一个全局的ResourceManage...

2018-02-02 00:05:06 289

原创【HDFS篇】eclipse下开发hadoop配置相关及测试HDFSDemo

安装前准备 1.将bin目录下bin目录下的的文件替换到hadoop下的bin。然后将hadoop.dll 他的核心扩展库放在windows system32下。 2.创建jar库在hadoop的部署包下的涉及到HDFS、MapReduce、common、yarn、tools的jar都放在新建的hadoop-lib下。 3.配置环境变量新建，HADOOP_HOME 新建HADOOP

2018-01-31 08:11:55 854

原创【HDFS篇】基于HA的hadoop集群分析及搭建（ZK+zkfc）

简介: Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题 HDFS存在的问题 NameNode单点故障，难以应用于在线场景 HA NameNode压力过大，且内存受限，影扩展性 F MapReduce存在的问题响系统 JobTracker访问压力大，影响系统扩展性难以支持除MapReduce之外的计算框架，比如Spark、Storm HD

2018-01-29 21:29:40 3695 1

原创【HDFS篇】搭建hadoop完全分布式

1.准备4台服务器。虚拟机开启4台机器。做其余几台的免密钥。方法将家目录下的隐藏文件夹.ssh下的。id_dsa.pub公钥分发给其他，注意命名为其他名称，如node01.pub。 scp ./id_dsa.pub [email protected]:/root/.ssh/node01.pubcat node01.pub >> authorized_keys将node01.pub里

2018-01-27 18:47:17 173

原创【HDFS篇】搭建hadoop伪分布式集群

所谓伪分布式，就是单机模拟多台服务器搭建的过程。只是每个角色都是以进程的方式启动。基本流程如下：一,操作系统环境依赖软件ssh,jdk 环境的配置 java_home 免密钥时间同步 hosts,hostname 二,hadoop部署 /opt/jw/ 新建目录 profile的修改 java_home 的二次配置 hadoop配置文件修改角色在哪里启动备

2018-01-24 08:19:50 1035

原创【HDFS篇】HDFS相关概念总结

简介：存储模型为：字节，以文件切割成块，单一文件大小一致，文件与文件间可以不一致。其可以设置副本数，副本数不可超过节点数量。只支持一次写入多次读取，可追加数据。架构模型： NameNode节点保存文件的元数据：单节点 DataNode节点保存文件Block数据：多节点 DataNode与NameNode保持心跳，提交Block列表。 HdfsClient与NameN

2018-01-23 07:45:23 461

原创【高并发篇】tengine/nginx+keepalived+memcached搭配的相关配置总结

一、安装及基本的使用 1.安装tomcat 2.准备工作关闭防火墙 service iptables stop 或者永久关闭 chkconfig iptables off 3.配置请求的过滤，请求的为serverlet的动态资源。 vi nginx.conf 新增如下配置，注意加粗部分是对应这下面的upstream的名字。 location ~* .(jsp|do|action)$

2018-01-15 21:26:20 774

原创【Java线程篇】线程优先级（Priority）

简介：此demo说明，当2个线程请求同一把锁谁先执行谁后执行，只需设置优先级即可。既是setPriority(Thread.MAX_PRIORITY);的设置，而不管是谁先start。demo示例：/** * @author T.c * 创建时间：2016年11月4日下午21:13:57 * */public class PriorityDemo { ...

2017-12-27 16:03:26 335

原创【java线程篇】守护线程（Deamon）

介绍：守护线程使用简介，简单的一个demo示例如下：/** * 说明：此为守护线程测试，如下注意 * 1.当守护线程没有可以守护的线程时，也就是只有它自己的时候虚拟机则自动退出 * 2.守护线程必须在start之前进行操作。如果在之后则会提示错误。 * @author T.c * 创建时间：2016年10月4日下午10:35:49 * */public class Da...

2017-12-27 15:45:50 307

原创【Java线程篇】分而治之：Fork/join框架

介绍：这是一种很有效地处理大量数据的方法，著名的MapReduce也是采用这种分而治之的思想。fork()函数用来创建子进程，是的系统进程对一个执行分支。但是，值得注意的是，如果毫无顾忌地使用fork()开启线程进行处理，那么很可能导致系统开启过多的线程而严重影响性能。因此，在JDK中给出了ForkJoinPool线程池，对于fork()方法并不急于开启线程，而是提交给...

2017-12-27 09:13:29 270

原创【Java线程篇】线程的基础操作（新建）

简介：新建线程很简单，只需要用new关键字创建一个线程对象，并且将它start()即可。既，Thread t1 = new Thread(); t1.start(); 分析，start方法会新建一个线程并让这个线程执行run()方法。但是如果只是run(),则虽然可以正常执行，但是不能起到实际的作用。如：Thread t1 = new Thread(); t1.run();原因是，run(...

2017-12-25 08:03:44 170

原创【Java线程篇】线程池Executors类几种方法的使用

简介：线程池的概念类似数据库连接池，为避免系统频繁创建和销毁线程消耗资源，对其进行复用。让一部分线程长时间保持一个激活状态，使用时直接获取一个可用的，而无需新建，不用时还给池中，而无需关闭其。也节约创建和销毁对象的时间。下面介绍Executor框架处理各种类型的线程池，其扮演了线程工厂的角色。主要有以下的工厂方法。ExecutorService pool1 = Executors.n

2017-12-23 11:33:41 344

原创【Java基础】java基础汇总

前言：java常用且基础的String相关的总结，其中重在说明三者运行效率String，StringBuffer，StringBuilder，关于这三个类在字符串处理中有什么优缺点，从下面几点说明:1.速度：StringBuilder > StringBuffer > String String <（StringBuffer，StringBuilder）的原因 ...

2017-12-20 12:54:01 1350 1

空空如也

空空如也