自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(179)
  • 收藏
  • 关注

转载 Hadoop的安装与配置

1 安装JDK官网:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html镜像:https://repo.huaweicloud.com/java/jdk/首先下载jdk linux安装包 jdk-11_linux-x64_bin.tar.gz...

2019-10-05 20:38:00 234

转载 Linux上天之路(十八)之自动化部署

pexpectPexpect 是 Don Libes 的 Expect 语言的一个 Python 实现,是一个用来启动子程序,并使用正则表达式对程序输出做出特定响应,以此实现与其自动交互的 Python 模块。 Pexpect 的使用范围很广,可以用来实现与 ssh、ftp 、telnet 等程序的自动交互;可以用来自动复制软件安装包并在不同机器自动安装;还可以用来实现软件测试中与命...

2019-10-04 21:37:00 232

转载 Pandas系列(十七)-EDA(pandas-profiling)

对于探索性数据分析来说,做数据分析前需要先看一下数据的总体概况,pandas_profiling工具可以快速预览数据。安装pip install pandas-profiling使用import pandas as pdimport pandas_profilingdata = pd.read_csv('books.csv')pandas_...

2019-10-02 22:41:00 785

转载 Linux上天之路(十七)之Shell编程二

一、shell常用工具grep1.作用Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹 配的行打印出来。grep全称是Global Regular Expression Print,表示全局正则表达式版本,它的使用权限是所有用户。grep家族包括grep、egrep和fgrep。egrep和fgrep的命令只跟grep有很小不同。e...

2019-09-28 10:22:00 205

转载 Linux上天之路(十六)之Shell编程一

用户在命令行输入命令后,一般情况下Shell会fork并exec该命令,但是Shell的内建命令例外,执行内建命令相当于调用Shell进程中的一个函数,并不创建新的进程。以前学过的cd、alias、umask、exit等命令即是内建命令,凡是用which命令查不到程序文件所在位置的命令都是内建命令,内建命令没有单独的man手册,要在man手册中查看内建命令,应该$ man bui...

2019-09-28 09:58:00 165

转载 Linux上天之路系列目录

Linux上天之路系列目录Linux上天之路(一)之Linux前世今生Linux上天之路(二)之Linux安装Linux上天之路(三)之Linux系统目录Linux上天之路(四)之Linux界面介绍Linux上天之路(五)之Linux基本命令Linux上天之路(六)之Linux文件管理Linux上天之路(...

2019-09-25 18:58:00 106

转载 Linux上天之路(十五)之文件查找

主要内容精确查找模糊查找1. 精确查找find - search for files in a directory hierarchy 递归地在层次目录中处理文件查找方式:按文件属性查找按文件类型查找按文件大小查找按时间查找语法find path -option 动作option按文件属性...

2019-09-24 22:46:00 178

转载 Linux上天之路(十四)之Linux数据处理

主要内容数据检索数据排序数据去重重定向1. 数据检索常和管道协作的命令 – grepgrep:用于搜索模式参数指定的内容,并将匹配的行输出到屏幕或者重定向文件中,常和管道协作的命令 – grep。还有egrep和fgrep两个命令。egrep可以使用扩展的正则表达式fgrep没有元字符与普通字符的区别...

2019-09-24 22:36:00 106

转载 Linux上天之路(十三)之系统进程管理

主要内容进程介绍进程管理进程优先级1. 进程介绍Linux系统中的几乎任何行动都会以进程的形式进行。如果你用网络浏览器查看网页,浏览器就作为进程运行。如果键入bash shell的命令行,这个shell就作为进程运行。如果你用chmod命令来更改文件权限,chmod就作为单独的进程来执行。进程是完成工作的形式,linux内核的基...

2019-09-24 22:30:00 128

转载 Linux上天之路(十二)之服务管理

主要内容服务介绍独立服务非独立服务1. 服务介绍服务:常驻在内存中的程序,且可以提供一些系统或网络功能,那就是服务。计算机中的系统服务有很多,比如:apache提供web服务ftp提供文件下载上传服务ssh提供了远程连接服务防火墙提供了安全防护服务等等可以把计算机理解为一个地点 比如中关村大街...

2019-09-24 22:20:00 179

转载 Linux上天之路(十一)之软件管理

软件包格式:RPM:源码封装后的格式,类似于exe文件源码:软件源代码,可以修改,优化1. RPM软件包管理rpm是一个很有用的包管理器,可以用于生成、安装、查询、核实、更新以及卸载单个软件包适用于redhat redflag centos suserpm命令:rpm -ivhi 安装v 显示安装过程...

2019-09-24 21:10:00 83

转载 Linux上天之路(十)之Linux磁盘管理

主要内容磁盘介绍磁盘管理磁盘限额逻辑卷管理磁盘阵列1. 磁盘介绍硬盘最基本的组成部分是由坚硬金属材料制成的涂以磁性介质的盘片,不同容量硬盘的盘片数不等。每个盘片有两面,都可记录信息。盘片被分成许多扇形的区域,每个区域叫一个扇区,每个扇区可存储128×2的N次方(N=0.1.2.3)字节信息。在DOS中每扇区是12...

2019-09-24 20:56:00 154

转载 Linux上天之路(九)之文件和文件夹的权限

主要内容linux 基本权限linux特殊权限linux隐藏权限linux file ACL 权限1. Linux的基本权限使用ls -l filename 命令查看文件或文件夹详细权限ls -l-rw-r--rw- 1 root root 22 Jan 6 15:42 abc- --- --- -...

2019-09-24 18:44:00 102

转载 Linux上天之路(八)之用户和组

主要内容、用户创建,删除,修改密码及密码文件组创建,删除,修改组密码及组配置文件相关文件Linux用户分类超级管理员: UID为0 root用户拥有至高无上的命令,root用户不能改名系统用户:UID小于1000,用于管理服务,一般不允许登陆普通用户:UID大于或等于1000,权限较小,允许登陆,只能...

2019-09-24 18:33:00 106

转载 Linux上天之路(七)之Vim编辑器

vim 是 “vimsual interface IMproved”的简称,它可以执行输出、删除、查找、替换、块操作等众多文本操作,而且用户可以根据自己的需要对其进行定制,这是其他编辑程序所没有的vim 不是一个排版程序,它不像MS Word 或 WPS 那样可以对字体、格式、段落等其他属性进行编排,它只是一个文本编辑程序vim 是全屏幕文本编辑器,它没有菜单,只有命令...

2019-09-24 18:16:00 139

转载 Linux上天之路(六)之Linux文件管理

文件与文件夹的操作1) 新建2)改名3)查看4)删除5)拷贝6)移动1. 文件的操作文件的新建:touch filename文件的改名:mv文件的查看:ls文件内容的查看:cat文件的删除:rm [-r -f]文件的拷贝:cp [-r -f -p]文件的移动:mv文件的创建-touch...

2019-09-24 18:11:00 123

转载 Linux上天之路(五)之Linux基本命令

1. Linux命令格式命令 命令选项学会看语法:{必选项}[可选项]举例ls -a /tmp 等价 ls –all /tmpls 命令-a 命令选项 简写使用- 全写--/tmp 参数2. Linux命令分类linux 命令分为:内部命令和外部命令,内部命令是linux内核自带的,执行效率更高;...

2019-09-24 17:39:00 93

转载 Linux上天之路(四)之Linux界面介绍

Linux界面linux为使用者提供了图形界面和文本界面,但是很多操作依然需要文本界面的操作才能完成,很多人使用起来比较蹩脚,又因为linux平台的个人应用APP相对较少,使得大家的个人PC安装了linux后使用不方便,所以linux一直没有在个人PC方面有大的突破。但是相对于服务器来说,服务器一般都是专业人员来进行维护的。linux提供了大量应用服务,且linux相对于window...

2019-09-24 17:27:00 128

转载 Linux上天之路(三)之Linux系统目录

1. Linux设计思想1) 程序应该小而专一,程序应该尽量的小,且只专注于一件事上,不要开发那些看起来有用但是90%的情况都用不到的特性;2) 程序不只要考虑性能, 程序的可移植性更重要,shell和perl,python等脚本相比c有更好的移植性;3) 一切皆文件,尽量使用文本文件来存储数据,避免使用二进制文件,因为文本文件可读性强,且已经有跟多的工具来处理,例如awk,se...

2019-09-24 17:23:00 87

转载 Linux上天之路(二)之Linux安装

1. vmware workstation使用VMware是全球领先的虚拟化公司,为客户提供虚拟化解决方案,个人虚拟化产品workstation,可以让用户通过虚拟化的方式在一台物理电脑中安装多个操作系统。且多个虚拟机直接是彼此隔离的,安全有保障。物料准备:workstation-X.exe打开虚拟机,点击 主页 选项卡中的 创建新的虚拟机。菜鸟选择典型,高手选择自定义。我选择的典...

2019-09-24 17:13:00 85

转载 Linux上天之路(一)之Linux前世今生

0. Linux的前世今生linux是什么 linux是一个计算机的操作系统,与windows类似,是一款系统软件操作系统 说到操作系统其实我们首先要思考三个问题: 1)操作系统是什么? 2)操作系统能干什么 3)操作系统和QQ、office又有什么区别 操作系统是什么? 操作系统首先是一个计算机程序,使用计算机语言开发,比如C...

2019-09-24 17:08:00 1227

转载 Go语言系列(十一)- 日志收集系统

一、日志收集系统背景1 项目背景a. 每个系统都有日志,当系统出现问题时,需要通过日志解决问题b. 当系统机器比较少时,登陆到服务器上查看即可满足c. 当系统机器规模巨大,登陆到机器上查看几乎不现实2 解决方案a. 把机器上的日志实时收集,统一的存储到中心系统b. 然后再对这些日志建立索引,通过搜索即可以找到对应日志c. 通过提供界面友好的we...

2019-09-14 12:25:00 92

转载 selenium实现并发

for循环和多线程 + selenium实例一for循环# -*- coding: utf-8 -*-"""Datetime: 2019/6/22Author: Zhang YafeiDescription: """import timefrom selenium import webdriverfrom selenium.webd...

2019-06-24 08:44:00 1484

转载 Elasticsearch打造全文搜索引擎(二)

一、Es的文档、索引的CURD操作1. elasticsearch概念集群:一个或多个节点组织在一起节点:一个节点是集群中的一个服务器,有一个名字来标识,默认是一个随机的漫画角色的名字分片:将索引划分为多份的能力,允许水平分割和扩展容量,多个分片相应请求,提高性能和吞吐量。副本:创建分片的一份或多份的能力,在一个节点失败其余节点可以顶上。ela...

2019-06-17 19:48:00 216

转载 Elasticsearch打造全文搜索引擎(一)

带着问题上路——ES是如何产生的?(1)思考:大规模数据如何检索?如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题:1)用什么数据库好?(mysql、sybase、oracle、达梦、神通、mongodb、hbase…)2)如何解决单点故障;(lvs、F5、A10、Zookeep、MQ)3)如何保证数据安全性;(热备、冷备、异...

2019-06-15 21:29:00 223

转载 自定义异步爬虫架构 - AsyncSpider

作者:张亚飞山西医科大学在读研究生1. 并发编程Python中实现并发编程的三种方案:多线程、多进程和异步I/O。并发编程的好处在于可以提升程序的执行效率以及改善用户体验;坏处在于并发的程序不容易开发和调试,同时对其他程序来说它并不友好。多线程:Python中提供了Thread类并辅以Lock、Condition、Event、Semaphore和...

2019-06-13 16:59:00 149

转载 Go语言实战-爬取校花网图片

一、目标网站分析  爬取校花网http://www.xiaohuar.com/大学校花所有图片。经过分析,所有图片分为四个页面,http://www.xiaohuar.com/list-1-0.html,到http://www.xiaohuar.com/list-1-3.html。二、go代码实现// 知识点// 1. http 的用法,返回数据的格式、编码...

2019-06-09 19:28:00 123

转载 Go语言系列(十)- http编程和mysql

http编程一、Http协议1. 什么是协议?  协议,是指通信的双方,在通信流程或内容格式上,共同遵守的标准。2. 什么是http协议?  http协议,是互联网中最常见的网络通信标准。3. http协议的特点  ①通信流程:断开式(无状态)        断开式:http协议每次响应完成后,会断开与客户端的连接        无状态:由于服务...

2019-06-09 13:53:00 176

转载 Go语言系列(九)- Socket编程和Redis

Socket编程一、socket编程概述  什么是socket编程? socket编程是计算机PC机器上2个程序通过一个双向的通信连接实现数据的交互,这个连接的一端就是一个socket。socket的翻译意思上还有个插座的概念,其实,也可以很形象的比喻为插座插上去了就有通电了(网络通了)。socket编程其实作为UNIX系统的进程间通信机制,通常称为“套接字”,用来描述IP地址和...

2019-06-09 12:31:00 225

转载 正则表达式实战

使用正则表达式正则表达式相关知识在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要,正则表达式就是用于描述这些规则的工具,换句话说正则表达式是一种工具,它定义了字符串的匹配模式(如何检查一个字符串是否有跟某种模式匹配的部分或者从一个字符串中将与模式匹配的部分提取出来或者替换掉)。如果你在Windows操作系统中使用过文件查找并且在指定文件名时使用过通配符(*和...

2019-05-27 10:19:00 48

转载 你不得不了解的Python3.x新特性

  从 3.0 到 3.8,Python 3 已经更新了一波又一波,但似乎我们用起来和 2.7 没有太大区别?以前该怎么写 2.7 的代码现在就怎么写,只不过少数表达方式变了而已。在这篇文章中,作者介绍了 3.0 以来真正 Amazing 的新函数与新方法,也许这些方法我们都不太熟,但它们确实在实践中非常重要。一、格式化字符串f-string在任何的编程语言中,不使用字符串都是寸...

2019-05-22 14:48:00 85

转载 详解Scrapy的命令行工具

接触过Scrapy的人都知道,我们很多操作是需要借助命令行来执行的,比如创建项目,运行爬虫等。所以了解和掌握这些命令对于scrapy的学习是很有帮助的!Scrapy 命令 首先,在scrapy命令中分为两种,一个就是全局命令和项目命令,什么意思呢?简单粗暴的说就是有些命令你可以在你电脑任何地方用,有些命令只能在你自己的项目里面用。 下面给大家先看看所有的命令:...

2019-05-12 12:23:00 106

转载 Python调用aiohttp

1. aiohttp安装pip install aiohttp1.1. 基本请求用法async with aiohttp.get('https://github.com') as r: await r.text()其中r.text(), 可以在括号中指定解码方式,编码方式,例如await resp.text(encoding='w...

2019-05-09 09:47:00 119

转载 并发编程之异步爬虫

async/await关键字是出现在python3.4以后。网上已经有很多文章对async/await这两个关键字都有讲解,包括如何由python2的yield from发展到async/await这两个关键字,以及一些代码实现都有。但是对于像我这样初次接触的人来说,光看代码分析也不一定能理解,我也是在度娘上搜索很多相关的网站,当中也有官网,都没有发现能让我一眼看懂在什么地方可以用aw...

2019-05-02 22:54:00 185

转载 Python解析xml文档实战案例

xml文档<?xml version="1.0" ?><!DOCTYPE PubmedArticleSet PUBLIC "-//NLM//DTD PubMedArticle, 1st January 2019//EN" "https://dtd.nlm.nih.gov/ncbi/pubmed/out/pubmed_190101.dtd"><...

2019-04-26 21:22:00 348

转载 一文了解Python的线程

问题什么是线程?如何创建、执行线程?如何使用线程池ThreadPoolExecutor?如何避免资源竞争问题?如何使用Python中线程模块threading提供的常用工具?目录1. 什么是线程2. 创建线程 2.1. 守护线程 2.2. 加入线程3. 多线程4. 线程池...

2019-04-23 16:33:00 139

转载 使Python走向Effective系列目录

Effective以一词,并不单单局限于执行速度层面的高效率,同时有着令代码易于阅读、易于测试且易于维护等意思,此外,它还蕴藏着易于扩展、易于修改和易于多人协作等更为高阶的理念。如果能够通过一些具体的条目来培养一套分析并解决问题的思路,那就可以更加深刻地体会Python语言的设计哲学及实践艺术。很多Python开发者都崇尚Pythonic编程方式,这种Pythonic方式不仅应该体现在代...

2019-04-22 21:18:00 74

转载 编写高质量的Python代码系列(八)之部署

Python提供了一些工具,使我们可以把软件部署到不同的环境中。它也提供了一些模块,令开发者可以把程序编写的更加健壮。本章讲解如何使用Python调试、优化并测试程序,以提升其质量与性能。第五十四条:考虑用模块级别的代码来配置不同的部署环境第五十五条:通过repr字符串来输出调试信息第五十六条:用unittest来测试全部代码第五十七条:考...

2019-04-22 21:13:00 89

转载 编写高质量的Python代码系列(七)之协作开发

  如果多个人要开发同一个Python程序,那就得仔细商量代码的写法了。即使你是一个人开发,也需要理解其他人所写的模块。本节讲解多人协作开发Python程序时所用的标准工具及最佳做法。第四十九条:为每个函数、类和模块来编写文档字符串第五十条:用包来安排模块,并提供稳固的API第五十一条:为自编的模块定义根异常,以便将调用者与API相隔离第五...

2019-04-22 21:06:00 204

转载 编写高质量的Python代码系列(六)之内置模块

  Python预装了许多写程序时会用到的重要模块。这些标准软件包与通常意义上的Python语言联系得非常精密,我们可以将其当成语言规范的一部分。本节将会讲解基本的内置模块。第四十二条:用functools.wraps定义函数修饰器第四十三条:考虑以contextlib和with语句来改写可复用的try/finally代码第四十四条:用copyreg实...

2019-04-22 21:00:00 78

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除