- 博客(194)
- 资源 (13)
- 收藏
- 关注
原创 原生Hadoop集群搭建过程记录
前言本篇博客内容是在虚拟机的CentOS7系统上搭建Hadoop集群的步骤,Hadoop集群的节点分为namenode和datanode,namenode可以看作是Hadoop的master节点,datanode可以看作是node节点,一个集群一般由一个namenode和多个datanode组成一.准备工作1.1 修改主机名修改network文件vi /etc/sysconfig/netw...
2019-10-16 23:00:06
273
原创 CentOS7和Ubuntu16设置静态ip的方法
一.CentOS7设置静态ip首先进入文件目录/etc/sysconfig/network-scriptscd /etc/sysconfig/network-scripts查看该目录下所有文件找到文件名中带有"ifcfg-"的文件,如上图中的ifcfg-ens33,该文件是名称为ens33的网络接口的配置文件,在不同的系统版本下,该文件名称也就是网络接口名称可能不同,但格式相同,还有一...
2019-10-15 15:07:19
344
原创 kubernetes集群搭建(二进制方式)
[dckerrepo]name=Docker Repositorybaseurl=https://yum.dockerproject.org/repo/main/centos/$releasever/enabled=1gpgcheck=1gpgkey=https://yum.dockerproject.org/gpg[Unit]Description=Etcd ServerAfte...
2019-10-13 14:15:40
476
原创 Kubernetes部署项目报错ImagePullBackOff日志提示rpc error: code..http: server gave HTTP response to HTTPS client
在使用kubernetes集群时,用docker私库中的镜像创建Pod使用命令kubectl get pods查看pod运行情况,发现pod的运行情况,STATUS的值为ImagePullBackoff使用命令kubectl describe pod Pod名称查看Pod详细运行情况信息在Events这一项中,发现错误信息Failed to pull image “192.168.153...
2019-10-12 22:14:13
3385
原创 kubernetes集群pod异常状态ContainerCreating的解决
今天在使用kubernetes集群部署pod时,pod显示不正常状态ContainerCreating,如下图所示这是node节点无法部署pod致使pod处于错误状态,node节点上有两个服务,一个是kubelet,另一个是kube-porxy,pod部署报错一般是kubelet服务出了问题,在node节点上使用命令journalctl -u kubelet查看kubelet服务的日志jou...
2019-10-11 16:00:48
1689
原创 Kubernetes核心技术--Pod,Label,Volume,Service,Deployment详解
一.kubernetes简介kubernetes,简称K8s,是用8代替8个字符“ubernete”而成的缩写。是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署,规划,更新,维护的一种机制。传统的应用部署方式是通过插件或脚本来安装应用。这样做的缺点是应用的运行、配置、管理、...
2019-10-06 10:16:16
2055
原创 Docker与容器化-04-Docker私有仓库与镜像迁移备份
一.Docker私有仓库Docker共有仓库docker hub上传下载镜像都比较慢,所以如果要自己制作镜像然后在Docker中部署,最好还是自己搭建一个Docker私有仓库1.1 私有仓库搭建与配置(1)拉取私有仓库镜像registrydocker pull registry(2)启动私有仓库容器docker run -di --name=registry -p 5000:5000...
2019-09-27 16:08:14
1156
原创 Docker与容器化-03-使用Dockerfile创建镜像
一.Dockerfile简介Dockerfile是由一系列命令和参数构成的脚本,这些命令应用于基础镜像并最终创建一个新的镜像。1、对于开发人员:可以为开发团队提供一个完全一致的开发环境;2、对于测试人员:可以直接拿开发时所构建的镜像或者通过Dockerfile文件构建一个新的镜像开始工作了;3、对于运维人员:在部署时,可以实现应用的无缝移植。二.Dockerfile常用命令命令...
2019-09-27 15:52:27
151
原创 Docker与容器化-02-与镜像和容器操作相关的命令
一.镜像相关命令1.1 查看镜像使用命令:docker images参数含义:REPOSITORY:镜像名称TAG:镜像标签IMAGE ID:镜像IDCREATED:镜像的创建日期(不是获取该镜像的日期)SIZE:镜像大小这些镜像都是存储在Docker宿主机的/var/lib/docker目录下1.2 搜索镜像如果你需要从网络中查找需要的镜像,可以通过以下命令搜索do...
2019-09-27 15:33:20
150
原创 Docker与容器化-01-Docker简介及Docker在CentOS7环境下安装
1 Docker简介1.1 虚拟化技术 在计算机中,虚拟化(英语:Virtualization)是一种资源管理技术,是将计算机的各种实体资源,如服务器、网络、内存及存储等,予以抽象、转换后呈现出来,打破实体结构间的不可切割的障碍,使用户可以比原本的组态更好的方式来应用这些资源。这些资源的新虚拟部份是不受现有资源的架设方式,地域或物理组态所限制。一般所指的虚拟化资源包括计算能力和资料存储。...
2019-09-27 15:09:43
203
原创 自然语言处理基本概念及基础工具
基本概念1.分词中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成 一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。2.词性标注词性标注(Part-of-Speech tagging 戒POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程 序,也即确定每个词是名词、动词、形...
2019-09-14 21:50:43
680
原创 NLP学习04--长短期记忆网络LSTM
一.长短期记忆网络LSTM简介LSTM是对RNN的改进和升级,在RNN模型中,对于长期依赖的问题可能产生梯度消失和梯度爆炸,而在RNN的基础上改进而来的LSTM则特别适合解决这类需要长时间依赖的问题。LSTM相对于RNN的不同使,LSTM将“记忆细胞”进行了改造,而不是像RNN那样只有一个简单的激活函数。在LSTM中,需要记录的信息会一直传递,不需要记录的信息会被截断掉如下图所示,部分输出和输...
2019-06-08 16:47:05
1226
原创 NLP学习03--递归神经网络RNN
一.递归神经网络RNN简介BP神经网络和CNN的输入输出都是互相独立的;但是实际应用中有些场景输出内容和之前的内 容是有关联的。 RNN引入“记忆”的概念;递归指其每一个元素都执行相同的任务,但是输出依赖于输入和“记忆”bp神经网络和卷积神经网络这两种结构有一个特点,就是假设输入是一个独立的没有上下文联系的单位。但是对于一些有明显的上下文特征的序列化输入,比如预测视频中下一帧的播放内容,那么很...
2019-06-08 14:51:20
933
原创 NLP学习02--卷积神经网络CNN
一.卷积神经网络简介卷积神经网络(Convolutional Neural Network, CNN)是深度学习技术中极具代表的网络结构之一。CNN在CV和NLP领域都有很广泛的应用,相较于传统的算法,CNN避免了复杂的前期预处理过程(提取人工特征等),可以直接输入原始数据。CNN能够实现上述独特功能的原因是它使用了局部连接(Sparse Connectivity)和权值共享(Shared We...
2019-06-07 20:19:40
996
原创 NLP学习01--BP神经网络
一.神经元模型如下图是深度学习(deep learning)中神经元的模型,神经元是进行计算的基本单元。其中x1、x2 和x3为输入,+1为偏置神经元进行计算的数学公式可表示为:上式中,F、w、b分别为激活函数,权重,偏置;其中,激活函数F有多重,常用激活函数有sigmoid,Relu和tanh等二.BP神经网络2.1 BP神经网络原理BP神经网络的工作原理图如下所示:最左...
2019-06-07 18:44:15
1354
原创 Boost.Python.ArgumentError: Python argument types in错误解决及Boost安装配置
报错信息运行Python程序时报错,报错信息如下图所示。先检查函数使用的是否正确,如果确定没有问题,那么很可能是boost的安装配置问题Boost库简介Boost库是为C++语言标准库提供扩展的一些C++程序库的总称。Boost库是一个可移植、提供源代码的C++库,作为标准库的后备,是C++标准化进程的开发引擎之一。 可下载Boost C++ Libraries安装boost库。大部分b...
2019-04-16 09:49:18
8440
8
原创 新浪网首页新闻资讯爬虫项目
一.项目简介该爬虫是使用Python框架Scrapy开发,用来爬取新浪网首页分类的爬虫项目,适合新手用来学习Scrapy框架的使用及开发流程。爬虫的目标网站地址:http://news.sina.com.cn/guide/项目一共要爬取三级内容,分别是大类,小类,小类中的资讯文章。如下图所示,新闻,体育是一个大类,新闻大类下有国内,国际,社会等几个小类在国际小类中,有很多资讯文章,该爬虫...
2019-04-01 18:15:32
1969
原创 Windows下安装hadoop2.7.1
1.安装前需要准备的文件需要先去官网下载hadoop,但下载完的hadoop是不能直接在Windows上运行的,需要替换bin和etc两个文件夹,替换成专门为Windows下运行而编译的对应版本的bin和etc文件夹,可以在csdn下载中下载:也可以去官网先下载hadoop,然后去GitHub下载hadooponwindows。hadoop官网,hadooponwindows GitHub下载地...
2019-03-30 11:04:25
6090
2
原创 Python爬虫框架Scrapy报错:ModuleNotFoundError: No module named 'scrapy'
今天在使用Scrapy框架开发爬虫程序时换了一个Python版本,把原来的Python卸载了,换了一个新的版本的Python,打开PyCharm运行程序结果报如下错误:ModuleNotFoundError: No module named 'scrapy’我查了查资料,报这个错误的原因是Scrapy框架未正常安装。我更新了Python把原来的Scrapy库文件给删掉了,可以把Scrapy删除然...
2019-03-29 23:36:37
12846
3
原创 大型分布式Java项目--"宜立方商城"
一.项目简介宜立方商城是一个综合性的B2C平台,架构模仿京东商城、天猫商城,该平台主要提供两种服务:一,买家可以在商城浏览商品、下订单,以及参加各种活动。二,管理员,运营可以在平台后台管理系统中管理商品、订单、会员等宜立方商城项目使用Java的SSM框架处理后端业务,同时使用了Dubbo框架,是一个分布式支持高并发的商城项目。数据库选择MySQL集群,缓存使用Redis集群,使用Solr框架实...
2019-01-14 22:21:28
3809
6
原创 JavaWeb练习项目--"JEE商城"
一.项目简介本项目主要使用了JavaWeb技术,包括Jsp,Servlet,JDBC,适合刚学完JavaWeb的新手作为练习项目,巩固知识项目GitHub地址:https://github.com/JavaStudenttwo/JEEShop项目展示网址:http://47.106.99.83/JEEShop/jsp/index.jsp二.项目涉及的技术前端:使用了BootStrap...
2018-12-26 22:54:23
4892
7
原创 Hexo报错Usage: hexo <command>处理及图片显示问题
有一段时间没上GitHub的静态博客,今天上去看了一下发现图片都不能正常显示了,效果如下:我的图片都是放在牛客网上的,我查了一下是牛客网的测试域名不能用了,需要绑定自己的域名,而且之前上传的图片也全部作废,不能再访问,也不能下载。。。。于是我决定把图片都重新放回到GitHub静态博客上转移方法:在source文件夹下新建一个images文件夹来存放图片修改原来的图片地址,改为/imag...
2018-12-26 19:37:42
5245
1
原创 Scala基础-01-Scala环境安装及基础语法(变量,函数)
Scala简介Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。Scala是编写大数据框架Spark的语言,随着大数据的兴起,越来越多的人开始学习ScalaScala语言的优点优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户...
2018-07-05 22:41:16
566
原创 Python爬虫基础-02-提取数据
页面解析和数据提取在第一篇博客Python爬虫入门中曾分析过通用爬虫和聚焦爬虫,通用爬虫获取整个网页,而聚焦爬虫是针对部分数据进行获取,聚焦爬虫和通用爬虫一样会将整个网页下载下来,但下载下来之后还需要进行处理—将有用的信息提取出来网页内容根据结构类型可分为两类,非结构化的数据和结构化的数据,不同类型的数据,需要采用不同的方式处理非结构化数据一般有文本、电话号码、邮箱地址以及HTML文件...
2018-07-04 21:09:14
781
原创 Scrapy框架入门
Scrapy简介Scrapy框架是使用Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试Scrapy不仅有单机版,开发者还可以使用其集群版Scrapy-redis开发分布式爬虫程序,分布式爬虫有更快的速度和更高的效率Scrapy用途非常广泛,用户只需要定制开发几个模块就可以...
2018-06-11 21:12:41
713
原创 Hadoop入门
Hadoop生态圈Hadoop简介Hadoop是apache旗下的一套开源分布式计算框架。Hadoop的作用简单来说就是利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理。 Hadoop的核心组件有三个,分别是:1.分布式文件系统HDFS,2.运算资源调度系统YARN,3.分布式运算编程框架MAPREDUCE 我们平时说的Hadoop通常是指一个更广泛的概念——Ha...
2018-06-07 12:09:27
333
原创 Python爬虫基础-01-带有请求参数的爬虫
在上一篇文章Python爬虫入门中,Python爬虫程序爬取了指定网页的信息,爬虫发出的请求是一个固定的URL和部分请求信息,并没有请求参数,但是爬虫工作过程中发出的请求一般都需要加上请求参数,以完成对指定内容的爬取HTTP请求分为POST请求和GET请求,这两种请求添加请求参数的方式不同GET请求POST请求...
2018-06-06 19:06:23
12660
4
原创 Log4j框架配置文件log4j.properties配置使用详解
log4j.properties配置文件详解Log4j支持两种配置文件格式,一种是XML格式的文件,一种是properties(key=value)文件,其中properties格式的配置文件最为常用,其有一个固定的文件名log4j.properties,下面我们介绍使用properties文件做为配置文件的方法:1.配置rootLoggerrootLogger的配置方式:log4...
2018-06-05 19:12:19
80268
3
原创 Log4j入门
一.Log4j简介Log4j是Apache开发的一款日志框架,被非常广泛用于各种类型的java项目中,Log4j官网 在应用程序中添加日志记录总的来说基于三个目的:监视代码中变量的变化情况,周期性的记录到文件中供其他应用进行统计分析工作 跟踪代码运行时轨迹,作为日后审计的依据担当集成开发环境中的调试器的作用,向文件或控制台打印代码的调试信息在项目中添加日志记录最普通的做法...
2018-06-05 15:30:59
530
原创 Linux常用命令
Linux命令非常多,很难全部记下来,但是大多数命令平时使用时根本用不到。这里我把我常用的一些Linux命令记下来,方便使用网络相关查看网络端口使用情况查看具体某一端口的使用情况,以下两命令均可netstat -ano|grep 目标端口号netstat -an|grep 目标端口号 查看具体某一端口的使用情况,并显示占用该端口的程序的进程号netstat ...
2018-06-04 14:53:28
233
原创 IDEA使用技巧--在文件导航栏中屏蔽指定后缀名的文件
问题:IDEA中做比较大的项目时,由于文件比较多,在文件导航栏中找文件时需要不停地滚动滑轮上下翻。而且,文件导航栏中往往会出现很多不需要编辑和查看的文件,例如:下图中的log文件,程序编写过程中根本用不到这些文件 解决方案:在File->setting->Editor->File Type中 下面红线圈出的一段指令,添加要屏蔽的文件的通配符 OK退出,世界突...
2018-06-01 22:39:29
9861
原创 在PyCharm切换Python2和Python3
最近在学习Python爬虫,用PyCharm运行示例爬虫程序,有的程序使用Python2的库,有的程序使用Python3的库,需要切换启动程序,如果没有设置,就会报错
2018-06-01 07:54:43
32402
原创 Python爬虫入门
Python爬虫介绍聚焦爬虫和通用爬虫爬虫根据其使用场景分为通用爬虫和聚焦爬虫,两者区别并不是很大,他们获取网页信息的方式是相同的。但通用爬虫收集网页的全部信息,而聚焦爬虫则只获取和指定内容相关的网页信息,即需要信息的筛选爬虫的工作原理通用爬虫是百度谷歌这样提供搜索服务的公司使用的,他们需要将网上所有的网页信息通过爬虫全部抓取并存储起来,并对这些信息进行分析处理,用户进行搜索时就把...
2018-05-31 16:24:20
6058
1
原创 win10更新后C盘空间变小解决方法
清理原装Windows最近更新了win10,更新后发现C盘的可用空间突然小了很多,去百度查了查才知道win10更新后原版的系统文件没有删除。。。。所以C盘空间小了很多,但是原版操作系统文件怎么删除却是个问题。我在控制面板里找到了可以解决这个问题的方法第一步:打开控制面板-系统和安全,在管理工具一栏中有一个释放磁盘空间,然后选择释放C盘空间 第二步:经过扫描后会让你选择要删...
2018-05-31 09:55:15
61684
3
原创 JVM垃圾回收策略与垃圾收集器
本文是在读完深入理解Java虚拟机(周志明著)后的总结,有很多部分借鉴了原书的说法,如果想深入了解这些内容,推荐看原书JVM垃圾回收策略垃圾回收主要包括确定垃圾和回收垃圾两步,JVM采用可达性分析算法分析哪些是废弃对象需要回收,然后采用GC算法进行垃圾清理(GC算法)。由于堆内存的使用情况影响了垃圾回收,所以JVM将堆内存划分成了几个区域,不同区域采用不同的垃圾收集方式1.确定...
2018-05-05 16:37:31
296
原创 JAVA虚拟机创建对象
Java是一种面向对象的语言,所以Java程序在运行时和对象相关的操作非常频繁,这包括创建对象,定位对象并对其访问对象创建从JVM虚拟机工作的角度,对象的创建要经过两个步骤:内存分配,对象初始设置1.内存分配对象创建起始于虚拟机遇到一条new指令,之后虚拟机会先检查方法区中的常量池,检查指令的参数能否在常量池中定位到一个类的符号引用,检查到之后,检查这个符号引用代表的类是否...
2018-05-03 19:22:41
342
原创 GC算法
GC算法即garbage collection垃圾回收算法,这些算法是JVM垃圾收集器的底层实现原理标记-清除算法(Mark-Sweep)这是最基础的GC算法,其他的GC算法都是在标记-清除算法的基础上改进优化而来的标记清除算法的执行分为两步,第一步标记出所有需要回收的对象,第二步在标记完成后统一回收所有被标记的对象如下图所示,上边是清理前的内存示意图,下边是清理后。可以看出标...
2018-05-03 18:25:05
547
原创 JVM内存区域入门
JVM运行时数据区域Java虚拟机在执行Java程序的过程中,会把它所管理的内存划分为若干个不同的数据区。这些区域有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程的启动而存在,有的区域则根据用户线程的启动和结束而建立和销毁,我们可以将这些区域统称为Java运行时数据区域Java虚拟机运行时数据区域被分为五个区域:堆(Heap)、栈(Stack)、本地方法栈(Native Stac...
2018-05-03 11:04:12
183
原创 Python基础语法-05-装饰器
闭包闭包是装饰器实现的底层部分,要想明白装饰器底层怎么实现,必须要搞懂闭包闭包是什么?将一个函数定义到一个函数内部,外函数的返回是内函数,这时这两个函数就构成了一个闭包闭包举例:def test(number): def test_in(number_in): print("in test_in 函数, number_in is %d" % nu...
2018-04-30 12:26:26
257
harbor1.8安装包
2020-01-08
JEE商城源代码
2019-04-12
hadoop2.7.1的Windows版本
2019-03-30
ik_analyzer中文分析器solr6版及以下版本适用(完整版)
2018-04-16
ik_analyzer中文分析器solr6版及以下版本适用
2018-04-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅