自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (3)
  • 收藏
  • 关注

原创 docker部署nginx并设置挂载

前言:最近在学习docker和nginx,因为容器在运行过程中,相关的配置文件及日志都会存在容器内。对容器以来较高,当容器不存在的时候。所有的文件也就都没有了。并且当需要查看日志,修改配置文件的时候必须进入到容器内部,显得更加麻烦一点。所以就引出对于docker下的nginx需要进行挂载到宿主机上。详细操作步骤:1、从docker仓库中拉取nginx镜像docker pull nginx2、查看是否拉取下来docker images3、进入容器内部两种方法:1)、根据名字进入doc

2023-10-23 08:50:29 409

原创 白话理解nginx是什么

一、什么是nginx?百度释义如下:Nginx (engine x) 是一个高性能的HTTP和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务。Nginx是由伊戈尔·赛索耶夫为俄罗斯访问量第二的Rambler.ru站点(俄文:Рамблер)开发的,第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名。2011年6月1日,nginx 1.0.4发布。Nginx是一款轻量级的Web

2021-01-27 09:53:39 273

原创 Zookeeper内部原理

一、选举机制1)、半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。2)、Zookeeper虽然在配置文件中并没有指定Master和Slave。但是Zookeeper工作时是有一个节点为Leader,其他的则为Flower,Leader是通过内部的选举机制临时产生的。3)、以一个简单的例子来说明整个选举过程。假设五台服务器,没有历史数据,都是最新启动的,都一样。假设这些服务器一次启动。server们都很单纯,1号机启动了首先都是投票选举自己,投给自己之后发现自己

2021-01-22 15:47:41 278 2

原创 CentOs7下安装Docker

原文引用地址:https://blog.csdn.net/u014069688/article/details/100532774一:什么是DockerDocker本质上是一个采用虚拟化技术的容器,基于Linux容器进行再封装,使用户不用关心容器的管理,而简化应用操作。从2013开始有这个项目到现在也不过5年时间,但是发展应用却极其迅速,主要原因就是应用简单方便,传统的虚拟化是基于硬件实现的,如果要部署10个应用,则需要创建10个虚拟机,而Docker是基于操作系统做的虚拟化,也就是复用本地主机的

2021-01-21 11:22:23 161

原创 ubuntu OSError:[Errno-9996] Invalid input device(Ubuntu安装pyaudio踩的坑)

遇到问题及经历:1月5日,6日安装pyaudio成功,但是运行程序的时候会报错ubuntu OSError:[Errno-9996] Invalid input device,表示找不到输入设备。google查找错误原因是没有查找到,csdn上也没有相关的帖子和错误。(吐槽:搜的还全是四五年前的帖子,都是僵尸贴,都没个有用的,呸!)检查ubuntu虚拟机功能,录音和播放功能都是正常的。开始怀疑是配置的问题。转过头看一下我安装配置的步骤,我的pyaudio安装配置步骤是按照我5号写的博客(点击查看

2021-01-07 17:23:01 3761

原创 ubuntu16.04安装pyaudio失败解决办法

先放几个报错方便同志们能搜索到:error: command ‘x86_64-linux-gnu-gcc’ failed with exit status 1ERROR: Failed building wheel for pyaudiosrc/_portaudiomodule.c:28:20: fatal error: Python.h: 没有那个文件或目录ERROR: Command errored out with exit status 1: /usr/bin/python3.6 -u -c

2021-01-05 17:35:40 1269 2

原创 win10下pip下载永久切换为国内镜像源的方法

直接使用pip下载会很慢。使用国内镜像要快很多。在windows文件管理器中输入“ %APPDATA% ”,如下图所示:跳转到这个目录下创建新文件夹pip文件夹下创建一个记事本文件(txt文件),写入如下代码[global]timeout = 6000index-url = http://mirrors.aliyun.com/pypi/simple/trusted-host=mirrors.aliyun.com我这里使用的是阿里云的镜像红框部分为镜像地址,保存。然后更改文件名为

2020-12-28 15:05:25 521 3

原创 python批量处理文件名的时候出现“File Not Found Error: Win Error 2 系统找不到指定的文件。”的解决办法

遇到问题:我的文件夹下是一堆MP3格式的音频文件,其中含有中文字符。在对这些文件进行批量处理的时候,老文件名和新文件名都能获取到。但是就是在改名的时候报错文件找不到:File Not Found Error: Win Error 2 系统找不到指定的文件。: ‘一yi1.mp3’ -> 'eceace9c386111ebb5e70242ac110002’源码:os.rename(old_name,new_name)报错原因:错误widnowsError [error 2]* 是因为系

2020-12-07 18:23:39 1722 2

原创 最新版MongoDB msi安装教程(MongoDB 4.4.2)

下载地址:https://www.mongodb.com/try/download/community安装:我安装完成了,就文字描述一下(1)、打开msi安装包,勾选“I accept the terms in the Liense Agreement”选项,next(2)、安装程序提供两种模式:完整(Complete)模式和定制(Custom)模式。其中,完整模式会将全部内容安装在C盘路劲无法更改,若要更改安装路径则需要选择(Custom)(3)、单击“Custom”按钮进入定制模式,在定制模

2020-12-03 10:23:12 1612

原创 爬虫中url中文常用的编码和加密方式

在爬虫的时候经常会遇到URL中包含中文字符,可以直接指示到.jpg .gif .mp3/4…等文件的地址。但是因为是中文,URL中无法直接显示。网站一般会采用编码或者加密的方式对中文字符进行处理。但是对于编码或者加密的方式不同网站有不同的方法。通常采用的方式有一下几种:一、Unicode编码Unicode编码通常由两个字节组成,称作USC-2,个别偏僻字由四个字节组成,称作USC-4。前127个还表示原来ASCII码里的字符,只不过由一个字节变成了两个字节。unicode编码基本格式为U开头,以斜杠

2020-11-30 19:59:46 2749 1

原创 python直接把汉字转换为拼音

今天任务要把之前获取到的中文例句全部转换成拼音。最开始打算通过爬虫从那些在线转换的网站上面爬取下来。但是所有的网站的都如下图的网站一样,通过页面中js动态加载的。直接从url入手行不通。按我现阶段多掌握的方法,只能通过selenium库进行自动化加载页面,输入文本再通过xpath定位文本爬取。但是selenium库进行爬取太慢了。我两万多条数据得到明天才行了。突然老大一语惊醒梦中人。老大说Java有一个jar包可以实现中文文本直接转拼音。但我比较懒,java第三方jar包下载导入太麻烦了。就想看看pyth

2020-11-26 22:03:57 3684 1

原创 在网页中输入中文进行搜索,如何获取搜索后页面的URL(python urliib中quote的使用)

今天在爬虫工作中发现前几天使用selenium库自动化爬取的时候有一个错误的问题。这个地方我想要或得到搜索后网站的url网址。用了一个笨办法。通过分段获取到代表该字的字符编码。这个有一点多此一举了。之所以我们在网页地址栏看到的汉字变成url以后是其他的编码是因为http协议中,URL只支持部分的ASCⅡ码。对于中文等特殊字符需要进行编码才可。python中的urllib.parse包对于url编码中有一个包可以实现直接编码转换。使用如下:import urllib.parsename = u

2020-11-17 21:50:38 3069

原创 不调用网页内容直接批量爬取MP3音频文件

需求:根据字典数据表中的汉字读音列表爬取单个字的拼音音频文件目标网址:https://hanyu.baidu.com/网页分析:F12因为是音频文件。直接在媒体里面找。点击Media,如果是空白的。点击一下页面小喇叭的地方。会跳出文件。根据头部信息header中的url,转到一看。就是所需要的音频文件。多搜几个几个字,对比找寻文件地址规律。云:https://fanyiapp.cdn.bcebos.com/zhdict/mp3/yun2.mp3牛:https://fanyiapp.cd

2020-11-11 20:57:51 3504 2

原创 爬取百度词语的相关内容

需求:根据HSK词汇表搜索相关词语,并爬取其中的拼音,释义、同义/近义/反义词使用语言及编译器:pythonpycharm目标网站:百度汉语:https://hanyu.baidu.com/目标网页分析:网页首页无任何东西,需要搜索进行跳转F12查看JavaScript加载后的网页源代码右击查看网页源代码通过对比,网页搜索跳转以后加载的是静态网页。故不需要进行逆向分析或者使用selenium库。ps.F12调出的是网页html代码的集合,并不是完整的网页html代码爬取思路

2020-11-10 21:39:51 380 2

原创 scrapy框架的安装和搭建

笔记Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用程序框架。可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。其最初是为了网页抓取(网络抓取)所设计的,也可以应用在获取API 所返回的数据(如 Amazon Associates WebServices)或通用的网络爬虫中。了解scrapy爬虫的原理Scrapy是一个爬虫框架而非功能函数库,简单地说,它是一个半成品,可以帮助用户简单快速地部署一个专业的网络爬虫。Scrapy爬虫框架主要由引擎(Engine )、调度器(S

2020-11-09 21:58:18 260

原创 安装MySQL的时候,next按钮灰的无法点击。

今天原本的MySQL出现问题。无法连接到,就卸载重装了。重装的时候出现如图的问题:Next按钮是灰色的,根本按不动。按理说后面就是设置名字和密码了,这一步是设置默认端口的。alt+n也跳不过。起初我一直怀疑是没卸载干净,注册表有残留。但是检查几遍都没有了。既然到这步停下来,这步主要目的是设置端口的,会不会是端口的问题?检查一遍:语法:netstat -aon|findstr + 端口号netstat -aon|findstr 3306果然,3306端口被占用了。现在处理方法就有两个,一个

2020-11-05 22:07:23 4194 2

原创 selenium自动化爬取gif图片

今天要爬取的是笔画网站的动态图片网址:http://bishun.strokeorder.info/打开网页如图老规矩F12一下看看:我们想要的是中间这个正在动的“云”字。左上角的小箭头点一下,网页上指哪儿看哪儿。如红框所示,文件就是一个gif的图片。这个爬取就好爬了。爬取思路1、selenium库执行自动化打开网页,进行自动化搜索。2、连接数据库,实现所有文字的循环搜索。3、使用xpath定位gif文件,获取文件名“title”和图片网页地址“src”。4、存储文件至指定文件。按照

2020-11-04 21:25:23 1011

原创 python操作Mysql数据库

今日遇到问题:Python操作MySQL数据库的时候能够能够连接到数据库。但是insert和update的时候却存储不了数据进数据库。最后解决办法是把数据先存储为一个csv文件,之后再直接导入数据库中。今天这里就记录一下连接数据库和操作数据库的方法。python中操作MySQL是我库主要有两种:PyMySQL和MySQLdb。两者的使用方法基本一致,唯一区别在于,PyMySQL支持python3,而MySQLdb不支持。1、连接方法PyMySQL库使用connect函数连接数据库,connect函

2020-11-03 21:29:50 290

原创 python+selenium获取网页动态加载的json文件

今天遇到的问题F12中能找到json文件,我所要也就是json文件里面的strokes内容。但是在先前的写的代码中,通过selenium自动化库能完成汉字的自动化搜索。但是无法获取到的json文件。from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdrive

2020-11-02 21:21:39 6941

原创 selenium库完成网站自动化搜索

动态网页爬取是相对于静态网页爬取而言的。在某些网站,使用静态下载器与解析器对页面目标信息进行解析时,如果没有发现任何数据,多数原因是该网站的部分元素是由Javacript动态生成的(并不是根据字面理解为网页页面的是动态的意思)。此时,使用静态网页爬取方式进行爬取会比较困难,因此需要寻求新的爬取解析方式,即动态页面爬取方法。目前对于动态网页爬取流行的方法一般分为两种:1、逆向分析爬取动态网页,手动分析网络面板的AJAX请求来进行HTML的信息采集;2、在Chrome浏览器中使用Selenium库模拟动态

2020-10-30 21:26:05 295

原创 Message: ‘chromedriver‘ executable needs to be in PATH.问题的解决办法。

准备爬取一个动态网站的内容。逆向分析找json文件太过困难。准备使用selenium进行自动化模拟登陆抓取,今天在配置谷歌浏览器chromedriver插件的时候。pycharm运行出现如图问题:先说一下原理,才能明白问题到底出在什么地方。1、计算机path环境变量是指OS查找或执行的应用程序的路径。2、在此配置环境变量的目的就是为了指引python能找到这个程序进行调用。但是python运行的时候找不到chromedriver.exe文件,就出现了如图的问题,报错:Message: ‘chrome

2020-10-28 17:09:50 3604

原创 Spark伪分布式启动只有jps没有Master和Worker

配置Spark伪分布式环境的时候,source /etc/profile之后,jps查看进程中只有jps进程,没有Master和Worker进程。造成这种情况的原因就是配置spark-env.sh和/etc/profile文件的时候Spark主节点的IP和Spark本地的IP配置错误。解决办法:首先查看linux的ip输入语句:ifconfig第一个红框标记的是Spark主节点的IP,第二个红框标记的是Spark本地的IP。其次,修改配置文件的相关内容。进入spark...

2020-05-26 21:52:32 6792 7

boost_1_67_0.tar.gz,openfst-1.6.7.tar.gz

在配置安装ctcdecode的时候,无法下载谷歌云上的这两个文件boost_1_67_0.tar.gz,openfst-1.6.7.tar.gz。我这里已经下载好供大家使用。

2020-12-30

cmusphinx-zh-cn-5.2.tar.gz

pocketsphinx需要安装的中文语言、声学模型。

2020-12-28

spacy中en_core_web_sm

使用Python chatterbot的时候,会出现找不到模块“en”的情况。现在使用pip下载的spacy一般是2.3.5的。使用2.3.1的可与之匹配。

2020-12-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除