自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

魔都猫哥

闻道有先后 术业有专攻

  • 博客(230)
  • 收藏
  • 关注

原创 linux服务器端利用docker搭建三节点的hadoop集群

好处: 利用docker搭建集群,对于我这种身无分文的人来说,简直是一种福利。废话不多说,开干~前置环境: 安装了docker的centos7服务器一台。目的: 利用docker配置一个三节点的hadoop集群,一主二从。具体操作如下:宿主机端拉取centos8镜像(发布文章时,默认就是是centos8)docker pull centos宿主机端创建网段docker network create --subnet=172.200.0.0/16 hadoopNet在宿主机上

2020-11-30 23:16:25 121

原创 JDBC Driver for SQL Server / Mysql 官方下载链接

https://docs.microsoft.com/en-us/sql/connect/jdbc/download-microsoft-jdbc-driver-for-sql-server?view=sql-server-ver15

2020-11-04 14:42:14 83

原创 docker 容器中判断两个容器是否可以进行通信

问题docker 容器中判断两个容器是否可以进行通信 (容器在创建时为其设置了网段,并配置了IP)解决方法进入任意一个容器内部docker exec -it 容器名称 /bin/bash执行ping命令,ping另一个容器的IP[root@fac0c462db7e elasticsearch]# ping 172.19.0.12 PING 172.19.0.12 (172.19.0.12) 56(84) bytes of data.64 bytes from 172.19.0.1

2020-10-30 14:50:02 148

原创 创建docker容器秒退--解决方法

问题:当我们创建一个新的docker容器,利用命令docker ps查看,发现几秒后就自动停止了~~解决办法:修改配置sysctl.conf,在文件最后添加如下信息vim /etc/sysctl.conf vm.max_map_count=655360启用配置sysctl -p删除已创建的失败容器docker rm 容器名重新创建容器docker run -it -d --name ...完毕!...

2020-10-29 15:41:54 163

原创 linux 报错 malloc(): unsorted double linked list corrupted (核心已转存) 解决办法

报错:malloc(): unsorted double linked list corrupted (核心已转存)原因:当前栈空间不足解决方法:1.检查当前栈空间大小ulimit -a2.增加当前栈空间为1000Mulimit -s 10240003.再次运行程序就不会报上面的错误了完毕!PS:如果上面的方法不能解决你的问题,那么你可能是缺少一个pyopengl包!pip install pyopengl...

2020-10-16 10:20:12 416 1

原创 使用python生成0~10之间的两位数的小数,只需一行代码

题目:使用python生成1~10之间的两位数的小数方法:num = "%.2f" %(random.random() + random.randint(0, 3))结果:3.79PS:更为灵活的操作startNum = 0endNum = 10num = "%.2f" %(random.random() + random.randint(startNum , endNum ))完毕!...

2020-10-15 17:05:40 136

原创 Centos7中python3环境下安装pyodbc(只需三步)

第一步:安装依赖yum install -y gcc-c++ python-devel**第二步:安装unixODBC **yum install -y unixODBC unixODBC-devel第三步:安装pyodbcpip install pyodbc结果展示[root@bca45a2a1414 ProjectDemo]# pip install pyodbcLooking in indexes: http://mirrors.aliyun.com/pypi/simple/C

2020-10-10 13:47:41 155

原创 sql server报错(156, b“Incorrect syntax near the keyword ‘browse‘.DB-Lib error message 20018, severity

报错内容(156, b"Incorrect syntax near the keyword 'browse'.DB-Lib error message 20018, severity 15:\nGeneral SQL Server error: Check messages from the SQL Server\n")解决办法:查看报错的字段命名,是否于数据库中的默认字段冲突。方法,改个名字试试~~...

2020-09-28 14:17:45 407

原创 jupyter-notebook中使用自己创建的conda环境

目的:让不同的项目使用不同的conda环境,方便管理,避免不必要的错误发生。1.创建conda虚拟环境conda create --name AMEnv python=3.82.进入我们刚创建的虚拟环境中conda activate AMEnv3.安装 ipykernelpip install ipykernel4.将我们创建的虚拟环境写入notebook的kernel环境中去python -m ipykernel install --user --name AMEnv

2020-08-13 13:26:24 93

原创 Linux(centos7)系统手动安装pyppeteer + chromium

一、安装 pyppeteer# 不指定websockets版本的话,可能会报错pip install websockets==7.0pip install pyppeteer二、安装 chromium编写一个 test.py 脚本,打印出chromium的版本号,575458就是我的版本号import pyppeteer.chromium_downloader# 这里的 linux 替换成你系统的版本,win32,win64,linux# 这个是返回在当前系统下chromium的路径

2020-08-11 16:44:25 334

原创 阿里云服务器处理挖矿程序过程

登录阿里云服务器终端,执行top命令,发现有一个进程netflix占用了98%的cpu,消耗了我的CPU积分,阿里云CPU积分被消耗后,网速就会变慢。判定其为挖矿程序后,干他解决办法:# 1.进入 ~/.ssh 目录 删除两个文件(如果你没有用到这两个文件的话)cd ~/.sshrm -rf authorized_keys# 你会发现这个文件删不掉,不要紧,执行下面几个命令即可# 1. 查看文件属性lsattr authorized_keys# 打印内容如下:-----i-------

2020-07-27 16:02:44 492 2

原创 nginx.conf 官方配置文件,用于对比配置nginx

#user nobody;worker_processes 1;#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log info;#pid logs/nginx.pid;events {worker_connections 1024;}http {include mime.types;default_type applicatio

2020-07-27 15:49:02 49

原创 sql server中的实用操作

1.>查看sql server服务器的状态systemctl status mssql-server重启sql server 服务器systemctl restart mssql-server停止systemctl stop mssql-server开启systemctl start mssql-serverlinux中远程连接服务器端的sql serversqlcmd -S 192.168.*.* -U sa -P '123456'...

2020-06-27 15:30:59 121

原创 利用python脚本获取本机IP地址

上代码import socketdef get_host_ip(): try: s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM) s.connect(('8.8.8.8', 80)) ip = s.getsockname()[0] finally: s.close() return ip print(get_host_ip())

2020-06-08 15:43:06 101

原创 使用pandas读取sql server数据库时,返回的数据中中文全是乱码,解决办法如下~

问题描述:如果你在jupyter-notebook中使用pandas链接sql server数据库,读出的数据凡是中文,就全部显示乱码,那么最简单的解决办法如下~解决方案简单、粗暴、有效将你sql server数据库中 varchar 的数据类型,全部改为 nvarchar 的数据类型即可。完毕!...

2020-05-27 14:02:03 196

原创 02.数据分析基础-思维导图

这几天猫哥把自己掌握的一些数据分析知识做成了一个思维导图,这个思维导图主体包含numpy、pandas以及数据可视化的内容。具体包含的内容主要是以实际案例为主,以及其对应的中文使用手册,案例中会包含相应的备注和代码。猫哥这样写的目的主要是为了方便大家的查找,毕竟numpy、pandas及数据可视化仅仅是数据分析的工具而已,没必要把所有的东西都记住,用到的东西查一查就可以了。数据分析的主要思想还是需要你对自身的业务有足够的了解,并利用统计学、概率论等数学知识进行深入的分析。(但如果你仅仅是想替别人做嫁衣的话

2020-05-17 19:29:13 308

原创 在excel快速将一列地址信息拆分成三列属性字段

要求:在excel中快速将一列地址信息拆分成三列属性字段,原字段如下:拆分结果如下:使用VB代码实现:Sub zz()Dim s$, b()'选择要处理的行数 从a2到a7ar = [a2:a7].ValueReDim b(1 To UBound(ar), 1 To 4)With CreateObject("vbscript.regexp") '提取属性的正则表达式 .Pattern = "(.*?期)(.*?单元)(.*?室)" For i = 1 To UBoun

2020-05-15 14:08:54 225

原创 记录一下 yum install *** 报错问题:failure: repodata/repomd.xml from tvinternal_dev: [Errno 256] No more mirr

本想centos7中安装一个google浏览器,于是便遇上了yum报错问题,不管install任何软件,都会报错,真是气煞老夫!报错内容如下:已加载插件:fastestmirror, langpacksLoading mirror speeds from cached hostfileepel/x86_64/metalink ...

2020-05-08 14:19:16 289

原创 01-numpy数组的使用
原力计划

Numpy本身并没有提供那么多高级的数据分析功能,理解Numpy数组以及面向数组的计算将有助于我们更加高效的使用pandas之类的工具。Numpy最重要的一个特点就是其N纬数组对象(即ndarray),该对象是一个快速而灵活的大数据集容器。我们可以利用这种数组对整块的数据执行一些数学运算。1.创建ndarray数组a.array函数创建数组import numpy as nparra...

2020-05-07 23:56:19 126

原创 sql server报错:参数数据类型 ntext 对于 len 函数的参数 1 无效。 (8116)

在使用sql server查询不为空的数据时报错:参数数据类型 ntext 对于 len 函数的参数 1 无效。 (8116)解决办法:select * from Demo_table where DATALENGTH(id_field) <> 0;解释:查询 id_field 字段长度不为0的所有数据。完毕!...

2020-05-06 13:55:11 1145

原创 00.jupyter-notebook环境搭建

jupyter-notebook的安装在百度上一搜一大堆,猫哥在这里提一下,主要是为了统一编辑环境,避免不必要的错误。猫哥的建议是直接安装anaconda,因为anaconda包含了大量科学计算的包,也避免了后期我们在使用时,又去重新下载。安装前准备:将win10的python版本设置成默认python3. (网上有很多解决办法,其中猫哥认为最简单的一个做法是在环境变量的path中,将pyth...

2020-05-05 20:19:29 108

原创 scrapy框架配置随机延时、UA、IP
原力计划

作为强大的采集框架scrapy,有几个基本配置,大家一定要掌握。下面猫哥一一为大家介绍。随机延时在scrapy框架settings.py文件中有一个默认的延时设置DOWNLOAD_DELAY = 2,这个设置的延时时间是固定的,也就是说每次请求的延时时间都是3秒。那么我想让延时时间随机的变动,也就是说假如我设置延时时间是5s,那么我希望每次延时会随机的从1-5s之间选择一个值进行延时。下面我们...

2020-04-23 21:36:43 632

原创 当使用jupyter-notebook读取sql server上超过百万的数据时报错MemoryError

在做数据分析时,才读取了数据中几百万的数据就给我报错,提示内存错误。但想了想也不对,虽然我的电脑算不上高配,但也有16个G的内存,几百万的数据顶多不到3个G,怎么会提示内存错误呢?仔细查看原因,发现我使用的是python3虚拟环境开启的jupyter-notebook。猜测可能是这个原因,直接换成anaconda,并在anaconda中安装读取sql server的包pymssql,果真就成功了。...

2020-04-14 22:16:34 539

原创 python3数据分析面试题--找出出现次数最多的名字并统计次数
原力计划

前段时间有一个朋友说遇到一个数据分析的面试题,今天来和大家分享一下。题目是这样的:有一个姓名列表,列表中有很多名字,且有些名字是重复的,要求是找出出现次数最多的名字,以及出现的次数。上代码:from pandas import DataFrame, Seriesimport pandas as pdimport numpy as npname_list = ["张三", "李四", ...

2020-03-11 14:08:31 977

原创 阿里云Centos7服务器域名解析和Nginx配置
原力计划

Python是很容易就能上手的,但想要拿到高薪,那就要往深了学,像大数据、深度学习这些,多少也要了解一点。猫哥最喜欢的一句话:价值决定价格!只有不断提升自身的价值,才能得到高价格。Python学深了之后,特别是大数据、机器学习需要大量的运算,我们自己的电脑就有点吃不消了。此时就不得不借助于云服务器了。今天猫哥就教大家如何购买阿里云服务器、购买域名、解析域名、配置nginx。阿里云服务器购买阿...

2020-03-08 18:21:53 2143

原创 Python3 判断子文件夹是否为空文件夹,为空则将其重命名

在一个工作目录中有大量的文件夹,但其中也有很多空文件夹,但出于某种原因,不能将其删除,但又希望能快速辨认出来。那就将其添加一个特殊的标记即可!import reimport ospath_1 = r"C:\Users\wangkai\Desktop\DemoDir"dirs = os.listdir(path_1)# 遍历文件夹for dir in dirs: # 重新拼接...

2020-03-04 12:12:04 2200

原创 轻松上手pyppeteer,总结最常用几种操作

​我们都知道selenium目前已经停更很长时间了,而且很多网站都已经能够识别selenium了,对于新手来说想要简单的模拟浏览器去采集数据就显得很困难。那么猫哥今天就给大家介绍一款比selenium更好用的浏览器模拟软件pyppeteer。pyppeteer是一位日本工程师根据 Puppeteer 开发出来的非官方版本,而Puppeteer则是由Google开发。具体信息大家可以自行百度一下,猫...

2020-03-02 17:27:24 1774 2

原创 利用pyppeteer自动购买某麦网演唱会门票

此篇文章主要是为了教大家如何使用pyppeteer,切勿用于非法用途,否则后果自负!回归正题!今天猫哥要讲的内容是,利用pyppeteer购买某麦网演唱会门票。作为技术交流,猫哥只实现了基本的功能!实现原理:首先,我们无需破解其登录,直接通过手机扫码进入主页面。其次,通过访问我们的目标网址(也就是,我们想要抢的那场票。例如:抢刘德华的票,那么目标网址就直接定位到刘德华的预定页面)。然后,通过不...

2020-03-02 13:03:49 371

原创 ssh远程链接centos7系统 安装teamviewer

远程安装teamviewer存在一个巨大的“坑”(接受license),还有就是centos7要事先装好图形界面。下面我们就来绕过这个坑。1.下载linux版teamviewer链接地址:https://www.teamviewer.com/en-us/download/linux/2.将下载好的文件放centos7系统中,猫哥使用的工具是winscp,大家也可以使用其他工具,例如...

2020-02-11 10:46:08 375

原创 teamviewer早期版本11-14 版 官方链接地址

Linux端装了高版本的teamviewer后运行不起来,最终找到了Linux teamviewer12版可用。但却发现网上很难找到win或mac端的早期teamviewer版本,经过猫哥不懈的努力,终于找到了官方的早期版本链接供大家参考!https://www.teamviewer.cn/cn/download/previous-versions/...

2020-02-10 20:33:37 541

原创 如何在excel中快速的比较出两列数是否相同

函数:=IF(EXACT(B2,C2)=TRUE,"相同","不同")效果展示:完毕!

2020-01-21 14:47:45 226

原创 01.数据分析中的理论知识

一、常用的数据概念集中趋势:数据聚拢位置的一种衡量均值:常用来分析连续值、分布比较均匀的值的趋势中位数:用来分析存在异常值的数据,例如某些值特别大或特别小众数:用来衡量离散值的集中趋势分为数:与其他几个值共同作用。含义:将数据从小到大排列,切分成等分的数据点。常用到的是四分位数四分位数的计算方法:Q1的位置 = (n+1)*0.25Q2的位置 = (n+1)*0.5Q3的位...

2020-01-14 09:44:31 142

原创 案例二、股票市场分析(仅供学习参考)

Github项目链接地址:https://github.com/Maxwellwk/DataAnalysisCase/tree/master/PrimaryCaseAAPL、GOOG、MSFT、AMZN、FB股票市场分析目的:分析每个公司的股价走势 比较亚马逊和谷歌以及微软和脸书的股价走势 通过分位数来对苹果的股价进行风险评估 彩蛋:分析唯品会的股价趋势import nump...

2019-12-30 22:37:28 200

原创 案例一、航班准点预测(仅供学习参考)

GitHub项目连接地址:https://github.com/Maxwellwk/DataAnalysisCase/tree/master/PrimaryCase美国航班的准点预测import numpy as npimport pandas as pdfrom pandas import Series, DataFrame# 航班数据的链接网址link = 'https://p...

2019-12-30 22:24:16 783

原创 阿里centos7服务器配置FTP服务器

1.安装vsftpd# 查看是否已经安装rpm -qa | grep vsftpd# 若没有安装则进行安装yum -y install vsftpd2.然后启动ftp服务service vsftpd start3.使用win+R打开cmd 使用命令ftp+ip 测试是否可以链接成功C:\Users\Administrator>ftp 118.190.**.**...

2019-12-15 16:44:08 409

原创 强制重启了VMware虚拟机或更新后,liunx系统连接不上网络了,怎么搞?

问题:1.ping百度ping不通2.ping其他的ip也不行3.重启网络设置会报错解决办法:1.关闭 NetworkManger并禁止开机启动service NetworkManager stopchkconfig NetworkManager off 2.配置文件的MAC地址ip addr3. 在/etc/sysconfig/network-scr...

2019-11-27 13:00:40 201

原创 pyppeteer安装后运行时报错如下 urllib3.exceptions.MaxRetryError: HTTPSConnectionPool

报错如下:urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='storage.googleapis.com', port=443): Max retries exceeded with url: /chromium-browser-snapshots/Linux_x64/575458/chrome-linux.zip (Ca...

2019-11-13 10:53:10 7281

原创 pyton3 将DataFrame类型的数据写入sql server数据库中

前提:按照需求将处理好的DataFrame类型的数据保存在sql server数据库中,数据库需要提前建好,表可建可不建,运行代码后会自动创建,但还是建议自己建表,因为自动创建的表,表中的字段类型,可能并不是你想要的。使用时将代码中的连接信息改成自己的即可!# -*- coding: utf-8 -*-from pandas import DataFrame, Series# sql...

2019-11-09 16:58:15 2510

原创 python3 利用 for 循环创建 DateFrame 数据 很有用!

使用情景:在处理json类型的数据时,需要将最终的结果保存在sql数据库中,如果每条数据都连接一次数据库的话,入库效率太低,可以将同批次的数据整理成DataFrame类型后,再入库,效率成指数级增长。代码实现:# -*- coding: utf-8 -*-from pandas import DataFrame, Seriesses_list = []for i in ran...

2019-11-09 16:45:01 2173 1

原创 将项目外的.py文件函数引入到项目内使用

问题由来:当我使用pycharm打开一个scrapy项目时,由于需求原因,需要引用scrapy项目外的一个通用函数。这个函数是每一个不同的scrapy项目都要用到的,将其放在每个scrapy项目中有点太麻烦了,于是就将其放在项目外,让需要的项目进行引用。实现方法:在你需要引用通用函数的.py文件头部添加如下信息# 将项目外的.py文件函数引入到项目内import sys# 你...

2019-11-06 16:46:36 170

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除