自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 问答 (1)
  • 收藏
  • 关注

原创 clickhouse 连接mysql数据库ip变更解决方法

最近在学习click house介绍 安装在这clickhouse 官网因为我这边使用的是虚拟机,MySQL安装在windows上,在clickhouse 中最开始配置的MySQL数据库使用的ip是vmware随机分配的ip,导致下次使用vmware时分配给windows的ip变化了,所以clickhouse server连接不上原来的MySQL数据库。报错如图就是Code: 210. DB::NetException: Connection refused 这个错误。我觉...

2020-10-31 15:39:12 114

原创 [问题解决]极简解决RedHat7更换CentOS7的yum源

最近需要使用redhat代替centos,centos和redhat本是同根同源的,但是使用redhat的yun源需要注册,所以在测试非商业环境大部分都是使用centos的yum源来做,踩了一些坑,发现最简单的替换yum源方法。将/etc/yum.repos.d/CentOS-Base.repo 替换为以下内容即可,本人使用的redhat 7.6 所以版本可以替换为自己正在是的就好。# CentOS-Base.repo## The mirror system uses the connect.

2020-09-14 19:49:44 31

原创 解决json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes

最近做python web,要解析json,这个json.decoder.JSONDecodeError: Expecting value: line xxx column yyy (char n)问题困扰了一会,记录下来帮大家提供一个解决此问题的方向json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes:line xx column yyy (char n)其实错...

2020-09-14 14:44:36 130

原创 Python连接hive数据中遇到的各种坑

这里选择的是使用:impala+Python3.6来连接hive数据库from impala.dbapi import connectfrom impala.util import as_pandasconn = connect(host='192.168.118.118', port=10000, user='root', database='default', password='root', auth_mechanism ='PLAIN')cursor = conn.cursor().

2020-08-01 15:41:01 470

原创 使用anaconda虚拟python环境使用pyspark的一种方式

大数据学习之pyspark环境搭建。安装anaconda、配置好虚拟环境之后,可以编辑家目录下.bashrc文件,我的用户名是bdbp,虚拟环境名称也是bdbp编辑.bashrc添加以下内容export PYSPARK_PYTHON=/home/bdbp/.conda/envs/bdbp/bin/pythonexport PYSPARK_DRIVER_PYTHON=/home/bdbp/.conda/envs/bdbp/bin/jupyterexport PYSPARK_DRIVER_

2020-05-24 18:00:53 409

原创 python连接zookeeper、hbase

背景:os:centos 7.6zookeeper:3.4.14hbase:1.4.13python:anaconda3-python3.6.8准备工作:先启动集群,包括zookeeper,hbase,和ThriftServer,ThriftServer是hbsse用于对外提供api的组件启动ThriftServer的命令是:hbase thrift start ...

2020-04-25 17:38:09 507

原创 python安装 pycurl

操作系统:CentOS7.6 64位Python版本:3.6.8安装pycurl的时候报错 ERROR: Command errored out with exit status 1: command: /home/anaconda/miniconda3/envs/bdbp/bin/python -c 'import sys, setuptools, tokenize; ...

2020-04-20 18:38:08 157

原创 八斗十六期系列学习比记--The authenticity of host 'node2 (xxx.xxx.xxx.xxx)' can't be established.

交了高昂的学费,报名了八斗16期,升级了笔记本内存和硬盘,希望能够学有所成。今天是搭环境,用虚拟机搭了hadoop2.7.7,本来一切按教程都很顺利,最后启动时出现这个问题:The authenticity of host 'node2 (192.168.118.120)' can't be established.百度了一下有很多方法,但是我自己发现了一个新的方法,就是修改maste...

2020-04-06 17:04:14 103

原创 解决python 读取hive表的char类型字段返回 keyerror:21

这是python不支持char类型所致,使用cast函数将char类型的字段转数据类型即可,比如select cast(finish_flag as string) finish_flag from sor_data.test1;这样的sql是可以运行的。...

2019-12-11 18:09:41 232

转载 cdh hive支持update delete参数配置方法

以下配置项必须被设定:Client端:hive.support.concurrency–truehive.enforce.bucketing–truehive.exec.dynamic.partition.mode–nonstricthive.txn.manager–org.apache.hadoop.hive.ql.lockmgr.DbTxnManag...

2019-12-07 11:11:16 295

原创 WARNING: bridge-nf-call-iptables is disabled解决

执行docker info出现如下警告WARNING: bridge-nf-call-iptables is disabledWARNING: bridge-nf-call-ip6tables is disabled解决办法:vi /etc/sysctl.conf添加以下内容net.bridge.bridge-nf-call-ip6tables = 1net.br...

2019-10-05 15:16:18 173

原创 windows 和 Linux 添加环境变量

1、先了解一下什么是PATH环境变量(1)环境变量环境变量相当于“快捷键”。一个“HOME=/home/ACCP286”的环境变量指明你在这个电脑上的个人主目录是“/home/ACCP286”,你每次要回到个人主目录时,不需要输入“cd /home/ACCP286”,只需要“cd $HOME”或者在文件管理器的地址栏输“$HOME”即可;你写一个脚本程序,用到你的个人主目录,也只需要...

2019-09-30 14:47:21 373

原创 df.describe() 用法概述

python数据清理方面一般都会用到df.describe()这个函数,但其实这是可以传参数的。比如以泰坦尼克号生存预测为例df =pd.read_csv('./train.csv')df.describe()df.describe(include='O')# 大写英文字母 Odf.describe(include='all')可以看出默认是描述数字类型的属...

2019-09-08 14:50:02 8086

原创 centos 虚拟机 Name or service not known 解决方法

今天打开虚拟机安装docker 突然发现网络不通,ping 某度 出现 ”Name or service not known“, 而我记得周五还在用的,今天周日就不能用了?经过多方排查才发现是 网卡设置有问题----网卡的网关和虚拟机设置的网关不一致,如下图两个地方的网关要一致,但是不知道我什么时间做了更改。即要保证图中 5 和 3 是一样的。对于其他错误可参考此文章...

2019-09-08 11:00:07 1668

原创 CENTOS7下安装REDIS

一、安装redis第一步:下载redis安装包wget http://download.redis.io/releases/redis-4.0.6.tar.gz[root@iZwz991stxdwj560bfmadtZ local]# wget http://download.redis.io/releases/redis-4.0.6.tar.gz--2017-12-13 12...

2019-09-04 19:29:59 19

原创 Linux下 python3.7.X 安装相关问题 zipimport.ZipImportError ModuleNotFoundError: No module named '_ctypes'

今日安装centos 安装 python 3.7.4出现两个问题,记录一下,方便其他人排错。ipimport.ZipImportError: can't decompress data; zlib not availablecentsos yum -y install zlib*Ubuntu apt-get install zlib*ModuleNotFound...

2019-09-03 19:16:26 69

原创 使用pandas对数据进行清洗

目录:数据表中的重复值 duplicated() drop_duplicated() 数据表中的空值/缺失值 isnull()&notnull() dropna() fillna() 数据间的空格 查看数据中的空格 去除数据中的空格 大小写转换 数据中的异常和极端值 replace() 更改数据格式 astype() to_d...

2019-09-01 10:10:55 168

原创 sqoop抽数数据量少于原表情况的可能原因

今天用sqoop从Oracle数据库抽数,做数据核对的时候发现抽到的数据量少于Oracle数据中的数据量,后来检查发现是因为抽数语句中的split-by field 关键字不是主键,有空值,一般来数split-by field 字段都是主键,但是本次特殊情况,在前几次的抽数过程中出现 split-by field 字段只能是数字类型但是目标表的主键是string类型,所以找了其他的数字...

2019-09-01 10:09:50 400 2

原创 sqoop 从Oracle抽数 出现 ORA-00904 xxx invalid identifier

对于Oracle 出现ORA-00904 xxx invalid identifier 一般来数是因为 数据类型不匹配引起的,我在工作中出现此问题是抽数sql将number类型的id放在了最后做字符拼接,像这样然后把抽数ID字段的顺序换一下就可以了!!祝你工作顺利呦。...

2019-08-30 15:22:19 291

原创 设置seaborn的画布大小

最近在使用seaborn做可视化,记录一下如何改变seaborn的画布大小。默认是这样的sns.stripplot(x=d2['年龄'], y=d2['AST'], data=d2, jitter=True)修改之后plt.figure(figsize=(15, 10))sns.stripplot(x=d2['年龄'], y=d2['AST'], data=d2,...

2019-05-08 17:41:02 16385 1

原创 autoit 输入过程中切换输入法

在测试客户端的过程中有时需要切换输入法 ,网上给的不是很严谨会报错,究竟如何写呢?这样写(不要跨行):$hWnd = WinGetHandle("[ACTIVE]");$hWnd 为目标窗口句柄,这里设置的是当前活动窗口$ret = DllCall("user32.dll", "long", "LoadKeyboardLayout", "str", "08040804", "int",...

2019-03-30 14:58:02 717

原创 autoit info frozen解决之法

最近在做桌面客户端模拟操作了解到有一款autoit软件,配合适用的是window info ,但是这是默认frozen的,如图修改options 勾选freeze 就可如图

2019-03-30 14:29:54 284

原创 python标准库之os操作

Python Os模块--路径、文件、系统命令等操作os模块包含普遍的操作系统功能。注意:函数参数path是文件或目录的路径,filename是文件的路径,dirname是目录的路径,路径可以是相对路径,也可绝对路径常见或重要的函数为加粗字体os模块:os.name ----- 返回当前操作系统名称('posix', 'nt', 'os2', 'mac', 'ce', 'ris...

2019-03-25 15:36:36 50

原创 用vscode写python请三思

今天用vscode写爬虫,爬一个不是很难的页面,但是使用vscode调试总是出错。先说说我的情况,就是打印爬取内容,打印的内容不全,我以为爬虫断了,但是程序跑起来没有问题,目标网站也没有使用js或ajax然而就是无法打印完整内容,我百思而不得其解,网上不断的查找,不断的看官方文档,还是觉得没有错误。最后换了在jupyter写这个程序,再次打印一气呵成内容完整,感觉是被scode坑了,大家用...

2019-03-25 11:17:36 5259

原创 numpy之random小记

数据分析也断断续续学了很多,一直觉得numpy.random 有点模糊,今天来补一下。随机抽样(numpy.random)简单的随机数据 rand(d0,d1,...,dn) 随机值 >>> np.random.rand(3,2)array([[ 0.14022471, 0.96360618], #random...

2019-03-24 16:53:21 32

原创 postgresql 11.2 下载

最近开始搞postgresql 从官网下载发现比较慢 所以在此分享百度网盘下载链接:链接:https://pan.baidu.com/s/10OFa29URP8fTRgjC6kPljw提取码:laug

2019-03-23 23:01:50 2011 1

原创 python之时间操作利器模块----arrow

可能你已经被datetime和time模块绕晕 不如来看看arrow有多么好获取当前时间 arrow.utcnow(), arrow.now()In [15]: t = arrow.now()In [17]: t.datetimeOut[17]: datetime.datetime(2019, 3, 22, 21, 39, 0, 223147, tzinfo=tzlocal()...

2019-03-22 23:53:58 184

原创 ETL 之kettle 8下载

最近了解到ETL利器kettle,但是国内下载都非常慢,国内有个镜像网站但是只提供kettle 7及以下版本,这里提供kettle 8 版本地址链接:https://pan.baidu.com/s/1iiMq4tI3vzPTkjuAplczgA提取码:ga3l国内镜像http://mirror.bit.edu.cn/pentaho/Data%20Integration/...

2019-03-19 17:00:18 7897 3

原创 mongodb操作小记

mongodb也是一种数据库,数据库都有增删改查1. 增use dbnamedb.collectionname.insert({})# document是json格式的数据db.collectionname.insert(document)# 或者db.collectionname.save({data})# document是json格式的数据db.collection...

2019-03-18 11:41:08 36

原创 Pyspark ValueError: Cannot run multiple SparkContexts at once 解决之道

pyspark执行可能就遇到问题ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[])其实蛮好解决的将原来的from pyspark import SparkContextfrom pyspark import Sp...

2019-03-04 11:13:53 152

原创 Windows10 下安装spark单机版

如同往常一样安装spark也出了很多问题,好在一上午终于搞定spark 基于java,所以首先检查java是否安装,注意java安装路径最好不要出现空格,虽然网上也有解决方法,但是我的机器上没有解决问题。一 检查java安装 命令行输入java -version,一般会有下面这种结果C:\Users\yournam>java -versionjava versi...

2019-03-01 12:03:11 4086

转载 Jupyter notebook 代码自动补全

进入命令行环境安装nbextensionspip install --user jupyter_contrib_nbextensions -i https://pypi.mirrors.ustc.edu.cn/simplejupyter contrib nbextension install --user安装nbextensions_configuratorpip inst...

2019-02-28 12:39:28 924

原创 anaconda装好后,cmd不能使用conda等命令的解决

windows下安装好anaconda后,在cmd中使用conda命令会出现:'conda' 不是内部或外部命令,也不是可运行的程序或批处理文件把anaconda目录下的scripts添加到环境变量中就行了。...

2019-02-28 09:34:14 5697 7

原创 运行scrapy shell r’http://quotes.toscrape.com‘出现错误ValueError: invalid hostname: 'http

运行scrapy shell r’http://quotes.toscrape.com‘出现错误ValueError: invalid hostname: 'http如果你也在学习python的scrapy框架时,在windows10下面运行cmd后,在命令行里输入scrapy shell ‘http://quotes.toscrape.com/page/1‘命令时报错    Value...

2019-02-27 16:43:30 346

原创 让PIP源使用国内镜像,提升下载速度和安装成功率。

 对于Python开发用户来讲,PIP安装软件包是家常便饭。但国外的源下载速度实在太慢,浪费时间。而且经常出现下载后安装出错问题。所以把PIP安装源替换成国内镜像,可以大幅提升下载速度,还可以提高安装成功率。国内源:新版ubuntu要求使用https源,要注意。清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirro...

2019-02-23 23:24:19 70

原创 Vscode python debug过程中Terminal 终端路径的设置

昨天用Vscode 调试python程序 ,debug过程中Termianl路径总是自动跳转到一个莫名其妙的路径,如图:因为程序涉及判断路径下的文件是否存在,所以路径不对就很难受,查了很多终于找到原因。原来这个涉及python的虚拟环境。其实一句话就可以解决 py -3 -m venv file_pathfile_path 就是想使用的路径,在我的情况下就是 py -3...

2019-01-24 22:10:01 5831

原创 python 实现12306自动抢票

      春节临近越来越多的人需要买火车票了,然而网上那些或分享抢票链接或加钱抢票的软件并不能确定帮自己买到票,既然如此为什么不能自己实现抢票呢?所以在借鉴网上大神的成果基础上,自己也实现了python实时抢票的功能,并且打包成exe可执行文件,小白也能抢票啦!         首先是下载12306-master GitHub地址:        在windows直接用可能会遇到 [Er...

2019-01-19 20:28:47 1562

原创 mariadb设置默认字符集utf8

mariadb 与MySQL在创建数据表的时候设置默认字符集的方法是不一样的。MySQL是在括号里如下:CREATE TABLE studetns (    id INT ( 6 ) UNSIGNED PRIMARY KEY NOT NULL,    NAME VARCHAR ( 10 ),    age TINYINT ( 2 ),    height DECIMAL ( 5, ...

2019-01-09 10:55:21 2104

原创 Ubuntu18.04 安装 Phpmyadmin

   最近做啥都不顺利,安装软件总是比人多些错误。本文主要参考两篇博文,提供在Ubuntu18.04上安装Phpmyadmin (php7.2环境)的思路、以及安装之后遇到问题的处理方法。1、Apache2 web 服务器的安装 :可以先更新一下服务器1、sudo apt-get update             # 获取最新资源包2、sudo apt-get upgrade ...

2019-01-08 09:25:33 2908

原创 Ubuntu 18.04 安装Navicat乱码

Ubuntu 18.04 安装Navicat乱码解决方法网上很多,但是我居然遇到了两种情况,以下是我的总结。分别借鉴了两篇博文。方法一目前其他博客论坛说的主要方法有1)将安装目录下的./start_navicat中的字符集改为zh_CN.UTF-82)将系统的默认字符集改为zh_CN.UTF-8这个方法对我没有用 方法二1)打开乱码的界面,选择菜单栏第五个(如果Na...

2019-01-08 08:12:41 900

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除