自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Chenftli的博客

坚持记录,不断更新,让技术落地产生价值

  • 博客(128)
  • 资源 (2)
  • 论坛 (3)
  • 收藏
  • 关注

原创 pyppeteer部署在centos7上出现的问题

1.error while loading shared libraries: libXss.so.1: cannot open shared object file: No such file or directory解决:安装libXScrnSaveryum install libXScrnSaver2.pyppeteer.errors.NetworkError: Protocol...

2019-09-26 16:07:11 976

原创 docker基础三:一文学会DockerFile介绍、编写dockerfile、构建(build)、运行(run)、实例

一、简介DockerFile是用来构建Docker镜像的构建文件,是由一系列命令参数构成的脚本。二、DockerFile的一些规则每条保留字指令都必须为大写字母且后面要跟随至少一个参数指令顺序执行,遵循从上到下原则#表示注释每条指令都会创建一个新的镜像层,并对镜像进行提交三、docker执行DockerFile的大致流程docker从基础镜像运行一个容器顺序执行一条指令...

2019-06-12 17:48:33 7256 1

原创 服务器运维基础一:使用hcache查看使用buff/cache的目录文件

使用hcache查看使用较多的buff/cache所在的进程我是使用的git从github拉取下代码,然后重新编译的, 因为此项目是go语言写的,所以编译时需要安装go语言如下命令下载代码,或者直接下载zip压缩包,资源在 “此目录下文档中所用的资源” 目录中git clone git@github.com:silenceshell/hcache.git进入主目录,编译,然后将编译后的文件拷贝到/usr/local/bin目录下,即可使用cd hcachemake buildsudo cp

2021-03-08 17:38:23 134

原创 IDEA基础配置一:IDEA将自定义安装Maven的一些配置(home、xml、maven depository)固定为默认配置

环境:下图事例IDEA使用的是2020.1,不过其他版本都大同小异步骤:1、进入到初始的IDEA页面,如果是打开的是项目,就打开File-》Close Project。注意:如果想更改maven的全局配置(同理其他配置也是比如:Gradle),一定要关闭项目后,到达主页面,然后再打开Settings操作,不然只会更改所在项目的Maven配置,不能做到全局更改。下次创建还是会回到原来初始化的配置。如果你想改变某一个项目的maven配置,那就直接在项目中打开Files-》Settings,然后对mav

2021-03-07 18:39:43 32

原创 kafka常用维护查看shell命令(创建topic、查看、删除、生产者、消费者、消费者组offset)

1.kafka维护的一些命令:1.1创建topickafka-topics.sh --create --partitions 1 --replication-factor 2 --topic test --zookeeper companynode02:2181,companynode03:2181,companynode04:21811.2查询所有topickafka-topics.sh --list --zookeeper companynode02:2181,companynode03:21

2021-03-05 15:53:15 113

原创 mongoDB聚合操作在爬虫中的应用:查询匹配对应条件的数据,然后随机取样

背景:假如我的爬虫需要同一套代码,实现并行执行多个爬虫任务。这时你可以使用代码中实现多进程,这样做部署在一台服务器中是可以的。但是如果你是部署多台服务器的时候,就有问题了。当然有多种实现方式,但我这边是使用mongo来实现的。解决:当你启动爬虫时,将一些爬虫列表(适合于万级~千万级别)存储在mongo中。然后,查询对应条件的爬虫列表,然后随机取样,这就可以实现多个并行爬虫获取到的爬虫列表不同,从而避免多次运行一套代码重复爬取相同的列表,当然这样还是可能重复,但已经极大程度避免了爬虫列表的重复,提高了爬

2021-02-07 17:49:24 62

原创 搭建学习使用的大数据集群环境:windows使用vmware安装三台虚拟机,配置好网络环境

安装三台linux服务器1. 安装VMWareVMWare虚拟机软件是一个“虚拟PC”软件,它使你可以在一台机器上同时运行多个Windows、DOS、LINUX系统。可以通过Vmware来安装我们的linux虚拟机,然后通过linux虚拟机来进行集群的安装。Vmware的安装步骤省略。只要点击安装之后,一路下一步即可,注意:尽量不要装在操作系统盘里面。2. 通过Vmware安装第一台linux机器通过Vmware安装第一台的linux机器,并给虚拟机挂载操作系统1:双击Vmware打

2020-12-22 16:50:50 210

原创 每日一Tip:Jetbrains旗下集成环境(pycharm、IDEA等)使用Ctrl +鼠标滚轮上下滑放大缩小快捷键设置

第一步:找到settings配置选项, 如下图:第二步:选定左侧栏Keymap,在右侧搜索框搜font关键词。看到Editor Actions下的内容第三步:Decrease Font size为缩小字体大小,Increase Font size为放大字体大小。当然Reset Font size为重置字体大小。这里我们只设置放大缩小,右键一个选项,选择Add Mouse Shortcut,意思是添加鼠标快捷键。第四步:如下图,按压Ctrl,并下滑鼠标滚轮。并点击ok,最后退出的时候一定要

2020-11-18 15:19:15 69

原创 解决scrapy设置cookie中间件时遇到的问题

直接给出答案:注释掉COOKIES_ENABLED解释COOKIES_ENABLED作用:当COOKIES_ENABLED是注释的时候scrapy默认没有开启cookie当COOKIES_ENABLED没有注释设置为False的时候scrapy默认使用了settings里面的cookie当COOKIES_ENABLED设置为True的时候scrapy就会把settings的cookie关掉,使用自定义cookie补充:downloader中间件下如何实现请求携带cookie在scrapy项目

2020-11-12 18:20:28 101

原创 每日一知:flume自定义拦截器练习

简单需求:向文件中定时新增日期数据,采集该文件, 通过自定义source拦截器给日期数据加上自己姓名作为前缀,输出到控制台。分析:需求很简单,主要在于练习flume自定义拦截器的流程,我们需要使用java来写flume拦截器的流程需求,然后使用maven将程序打包成jar包。放到采集服务器的flume安装路径的/lib路径下,然后运行。步骤:1.启动一个maven工程,导入下面依赖的jar包<repositories> <repository> <id

2020-10-27 15:19:45 60

原创 每日一知:HBase表的数据模型

HBase表的数据模型主要概念包括rowkey、Column Family、Column、cell、Timestamp。1. rowkey行键table的主键,table中的记录按照rowkey 的字典序进行排序rowkey行键可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes)2. Column Family列族被称为列族或列簇HBase表中的每个列,都归属与某个列族列族是表的schema的一部分(而列不是),即建表时至少指定一个列族比如创建一张表,

2020-10-23 14:34:07 22

原创 windows(server)安装jenkins时遇到的问题:this account either does not have the privilege logon as a service

原问题this account either does not have the privilege logon as a servicePerform the following to edit the Local Security Policy of the computer you want to define the ‘logon as a service’ permission:Logon to the computer with administrative privileges.O

2020-09-16 16:42:11 908

原创 IDEA中maven项目的language level 修改后自动重置问题

问题:我的JDK使用的是1.8,但是在IDEA中编写1.8特性的代码时却会爆红,而且编译也通不过,确定不是代码的问题后。转而发现了Language Level这个东西,IDEA中默认Language Level 5(即对应JDK1.5),打开Module Settings将Language level修改为8(即对应JDK1.8),但是重新刷新maven依赖时,又会变成Language Level 5。language level 简介:language level 这个功能应该算是 IntelliJ

2020-09-16 15:52:41 420 1

原创 mongodb复制集节点替换实践【避坑指南】

注意:大家首先要明白你的需求是什么,然后对照做一些处理,下面是我的一些替换经验。需求这是我原来挂载节点时的配置config = { "_id" : "rs0", "members": [ { "_id" : 0, "host" : "127.0.0.1:27017" }, { "_id" : 1, "host" : "127.0.0.1:27018" }, { "_id" : 2, "host" : "127.0.0.1:27019" } ]}现在我需要将节点替换成下面con

2020-09-04 18:29:42 280

原创 mongodb踩坑:复制集(尤其是单台服务器多个mongo服务的)服务节点挂载问题

问题我在一台服务器上下面是报错:pymongo.errors.ServerSelectionTimeoutError: 127.0.0.1:27019: [WinError 10061] 由于目标计算机积极拒绝,无法连接。,127.0.0.1:27018: [WinError 10061] 由于目标计算机积极拒绝,无法连接。, Timeout: 30s, Topology Description: <TopologyDescription id: 5f4de49d2be4dd66f0ebc6b

2020-09-04 15:43:49 231

原创 mongodb复制集windows server部署,以及将线上单节点转化成复制集所踩的坑

部署mongodb安装就不多介绍了错误:“errmsg” : "This node, 127.0.0.1:27017, with id MemberId(0) is not electable under the new configura此问题的原因是仲裁不能和初始化在同一台服务器我的坑:线上的服务器是单节点mongo,想要改成复制集,但只有一台服务器,所以我要把三个mongodb服务部署在同一台服务器,由于之前的mongo有50多G的数据,改成复制集后,数据同步时把服务器内存撑爆。..

2020-08-10 10:27:27 92

原创 彻底解决windows配置hostname的问题

注意:转载请注明出处你的点赞与评论是我最大的创作动力!全局提醒做下列方法一、二的操作时,先找到hosts文件(在C:\Windows\System32\drivers\etc文件夹下),右键点击属性选项,然后查看是否是只读文件,如果是,就去掉只读勾选。原因是:如果是只读文件,记事本保存文件时就会保存到另外一个txt文件。这不是我们想要的,所以要修改文件权限,操作如下图:方法一:总述:可以将C:\Windows\System32\drivers\etc中的host文件拷贝到桌面。然后用记事本打开

2020-07-23 15:37:41 685

原创 一文教你用squid将闲置的服务器搭建成爬虫使用的高匿代理服务器

废话:我有一台centos7的服务器,吃灰了很久,本来用来部署博客网站的,但是也完全利用不起来,浪费我的钱啊!接下来我要让它成为一个高匿的爬虫代理服务器。场景:为什么要搭建这个东西,而不直接使用爬虫代理服务商提供的代理?假设根据爬取一个网站的经验发现这个网站在爬取频率不高的情况下不会封掉IP,但是我要求代理的质量要很高,不要像一些爬虫代理服务商提供的代理一样几乎没有多少请求是通的,虽然会使用重...

2020-07-16 17:37:21 535 1

转载 leetcode每日一题:判断二分图(2020.7.16)

题目给定一个无向图graph,当这个图为二分图时返回true。如果我们能将一个图的节点集合分割成两个独立的子集A和B,并使图中的每一条边的两个节点一个来自A集合,一个来自B集合,我们就将这个图称为二分图。graph将会以邻接表方式给出,graph[i]表示图中与节点i相连的所有节点。每个节点都是一个在0到graph.length-1之间的整数。这图中没有自环和平行边: graph[i] 中不存在i,并且graph[i]中没有重复的值。示例 1:输入: [[1,3], [0,2], [1,3], [

2020-07-16 15:36:51 270

原创 mysql数据库在windows(Windows Server)安装【清楚】

初衷:写这些基础类型的文章,主要是想将官方文档整理成简洁方便回忆的中文步骤,以便自己日后快速使用,也方便初学者快速理解、应用,希望大家可以通过这篇文章理解官方文档的信息,养成良好查看官方文档的习惯。下载:官方网站5.7的文档(也可以选择不同的版本文档去查看):https://dev.mysql.com/doc/refman/5.7/en/windows下安装mysql官方提供了两种方法:1、通过MSI图形化界面配置安装.2、解压配置安装,这里我们主要来操作第二种。官网选择版本下载的地址:htt

2020-06-18 16:49:54 176

原创 mongorestore[报错]auth error: sasl c onversation error: unable to authenticate using mechanism

完整报错:2020-06-09T17:42:44.532+0800 error connecting to host: could not connect to server: connection() : auth error: sasl conversation error: unable to authenticate using mechanism “SCRAM-SHA-1”: (AuthenticationFailed) Authentication failed.来由:mong

2020-06-09 18:40:14 2392

原创 DeprecationWarning: count is deprecated. Use Collection.count_documents instead.【对比全面详细】

环境python 3.7mongodb v4.2.1pymongo 3.9.0问题DeprecationWarning: count is deprecated. Use Collection.count_documents instead.print(cursor.count())场景当我使用pymongo查询出对应的cursor(find出的document的迭代器),然...

2020-04-09 11:12:33 1390 3

原创 使用mongodump和mongostore对mongodb数据库迁移实践总结

环境windows server2012mongodb:version v4.2.1如图为原mogodb数据库data存储数据的大小,约为:46.9GB如果迁移整个数据库的数据推荐使用mongodump和mongostore,这是mongdb官方文档中关于它们的迁移说明:https://docs.mongodb.com/v2.2/tutorial/backup-databases-w...

2020-04-03 13:59:05 446 1

原创 windows\windows Server 安装mongodb以及一些生产环境下连接的权限设置(清楚、详细)
原力计划

前提:mongdb下载地址:ww.mongodb.com/download-center/community选择windows版本下载exe安装:1、点击进行安装, 选择custom(自定义)进行安装2、这里我选择location(安装位置)为:D:\Program File\MongoDB\Server\4.2,这个目录是我建的,如果不更改默认是再C:\Program File\Mo...

2020-04-02 16:00:01 280 1

原创 python 使用ftplib连接ftp服务器获取目录、文件及它们的修改时间

需求:我要做的一个需求是根据目录、文件的修改时间来判断是否下载ftp的文件。由于ftplib中的FTP无法满足我这一需求,所以只能重写一个MyFTP类继承FTP,写一个方法来实现,除了这个还实现了一个获取当前目录下的所有目录及文件。from ftplib import FTPimport osimport reclass MyFTP(FTP): encoding = "utf...

2020-03-27 13:45:32 1795

原创 boto3连接aws的s3及注意事项

boto3文档:https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/index.html

2020-03-26 13:38:56 1401 6

原创 hadoop基础三:YARN简介、组件

YARN定位云计算三层服务:IaaS、PaaS、SaaSYARN属于PaaS层。YARN设计目标通用的统一资源管理系统同时运行长应用程序和短应用程序长应用程序通常情况下,永不停止运行Service(hadoop、Spark、Storm)、HTTP Server等短应用程序短时间(秒级、分钟级、小时级)内会运行结束的程序MR job、Spark Job等...

2020-02-25 12:00:09 107

原创 hadoop基础二:HDFS的特点、三个服务、架构

优点:一、高可靠性:hadoop一般都在成千的计算机集群之上,且可以搭建hadoop的高可靠集群,及内部容错功能优秀。二、高扩展性:hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。三、高效性:hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。四、高容错性:Hadoop能够自动保存数据的多个副本,并且...

2020-02-21 19:01:03 482

原创 hadoop基础一:Hadoop简介、安装

hadoop简介:hadoop平台是一个可靠的、可扩展的、可分布式计算的开源软件。Apache Hadoop平台是一个框架,允许使用简单的编程模型。该平台被设计成可以从单个服务器扩展到数千台服务器,每台服务器都提供本地计算和存储。该平台也被设计成可检测和处理应用层的故障(即高可用、高容错),高可用服务是基于计算机集群的,并且每一台计算机有可能出错。hadoop应用:1.大型网站web服务器...

2020-02-21 14:35:59 138

原创 centos7安装配置python3.7.3以及对pip3建立软连接管理依赖

步骤如果是在虚拟机安装的centos7,则需要先配置网络链接:参考:https://blog.csdn.net/Chenftli/article/details/103258508如没有wegt下载工具,使用以下命令安装:yum -y install wget1.下载python3.7.3的安装包wget https://www.python.org/ftp/python/3.7....

2019-11-26 17:21:43 970 1

转载 windows中vmware安装centos7并配置网络

做个记录,查看下面https://www.cnblogs.com/zhaopeng888/p/9407538.html

2019-11-26 16:20:24 201

原创 scrapy获取当前请求网页时的cookie

1、请求CookieCookie = response.request.headers.getlist('Cookie')print(Cookie)2、响应Set-CookieCookie2 = response.headers.getlist('Set-Cookie')print(Cookie2)注意:爬虫时一般要获取网页上的cookie是指第一个请求Cookie...

2019-09-26 16:35:28 1540

原创 安装包时报错:centos7 cannot find a valid baseurl for repo

原因:centos7域名解析DNS有问题解决:重新配置DNS方法一:vi /etc/sysconfig/network-scripts/ifcfg-eth0在文末添加下面,DDNS1=218.85.157.99DNS2=114.114.114.114然后重启网络:ifup 网卡名网卡名查看使用ip addr...

2019-09-26 16:26:39 117

原创 python题目:判断数据是否是回文

简介:回文通俗点就是顺着读和倒着读数字的顺序都一样。思考:可以首先想到的方法就是逐一比较,再仔细发现只需要比较一半就好像可以了。下面是两种方法,一种是逐一比较,一种是比较一半(如果数据个数是单数则比到[n/2],偶数是n/2)。方法一:# O(n),不稳定(有最坏情况与最好情况)@count_timedef test(num): num = str(num) num_...

2019-09-26 13:07:57 1060

原创 python中实现单例模式以及网上的一些错误

单例模式简介:单例模式(Singleton Pattern)是一种常用的软件设计模式,该模式的主要目的是确保某一个类只有一个实例存在。例如:服务器程序的配置信息存放在一个文件中,客户端通过一个 Config 的类来读取配置文件的信息。当有很多地方都需要使用配置文件的内容时就需要创建 创建多个Config 对象的实例,从而浪费内存资源,尤其是在配置文件内容很多的情况下。列举几种实现单例的方法...

2019-09-25 17:13:02 296 3

原创 python中的map()函数

环境:python3.7.3简介:map()是python中的内置函数,可以直接使用功能:将一个可迭代对象,通过一个函数生成另一个迭代器(但只能迭代一次)用法:map(函数, 可迭代对象)示例:def map_fun(x): return x ** 2# 返回b的类型是map类型, (map类型只能迭代一次,再次迭代为空)b = map(map_fun,...

2019-09-20 17:32:29 203

原创 将mysql数据表数据从一台服务器迁移到另一台服务器

前提我本次躺的坑是基于下面的环境的,并且是数据量比较小。如果非一样的条件请自行参考,当然可以参考一下我的思想。环境两台都是linux服务器,操作系统是centos两台服务器中mysql数据库所操作的表结构相同思想首先我想用mysql中的outfile将表中的数据导出为txt格式的文件,然后打包使用scp发送到对应另一台服务器上,然后在通过load的infile导入文件形式导入tx...

2019-07-13 14:01:59 2152

原创 python爬虫实例二:地图上的火锅美味

这次分享爬虫的一个小案例,本来还有数据分析的部分,但休息两天实在写不完代码,加上还要编辑图文。所以我打算分开写,有空就迭代迭代。。。先看下代码目录结构(目前还不会编辑好看的图文,谅解慢慢增强):有三个.py文件,map_craw.py、stat.py、store.py分别的功能是爬取数据、数据分析、将爬取的数据存储入mysql数据库中,由于stat.py还没写完,这篇文章主要讲数据的爬取与存...

2019-07-12 14:25:13 714

原创 ubuntu下adb工具的安装以及usb接口权限问题error: insufficient permissions for device: user in plugdev group

简述:adb(Android Debug Bridge安卓调试桥接器),是Android sdk(安卓开发工具包)里的一个工具,使用该工具可以用CLI直接操作管理真机andriod设备或android模拟器。安装:直接使用apt命令安装android-tools-adb即可sudo apt-get install android-tools-adb问题:error: ins...

2019-06-16 18:34:08 1777

原创 mysql中count()的用法

概念:count()是MySQL中用来统计表中记录的一个函数,返回条件的行数用法:count(*)返回表中的记录数(包括所有列),相当于统计表的行数(不会忽略列值为NULL的记录)count(1)忽略所有列,1表示一个固定值,也可以用count(2)、count(3)代替(不会忽略列值为NULL的记录)count(列名)返回列名指定列的记录数,在统计结果的...

2019-06-16 17:31:06 13489

OpenCV官方教程中文版(For Python).pdf

这个是opencv官方教程中文版,OpenCV-Python 中文教程 OpenCV官方教程中文版(For Python) 段力辉 译,欢迎下载

2020-04-03

机器学习面试题(3).docx

这是一些关于机器学习面试的一些问题的整理,虽然不是特别详细,但希望能帮助需要的人们,祝大家早日找到好的工作!

2020-04-03

如何打理自己的csdn博客!

发表于 2020-07-17 最后回复 2020-07-17

为什么我换了头像,还有粉丝人数不更新

发表于 2019-03-14 最后回复 2019-03-16

我的博客访问量原创都一直不更新

发表于 2018-04-23 最后回复 2018-04-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除