自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 资源 (3)
  • 收藏
  • 关注

原创 朴素贝叶斯分类算法——商品多分类(代码)

python环境:3.6.8import csvimport jiebadef lst_strip(lst):#去掉多余的空格。如果 a=[' 123','ttt,'vv ','',' '],如何实现a=['123','fuck','cvm'],因为strip()是对字符串操作,现在是一个list L=[] for v in lst: v = str.strip(v) if v: L.append(v) return

2021-04-21 18:05:57 1750 4

原创 hive distinct函数 null不参与统计及解决方法

hive distinct函数

2022-08-16 16:03:42 708 1

原创 CDH6.3.2 组件Maven依赖版本

maven添加仓库:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVer

2022-05-12 13:23:56 557

原创 npm ERR! gyp ERR! stack Error: Can‘t find Python executable “D:\python\Python36\Python36“, you can s

报错npm ERR! gyp ERR! stack Error: Can't find Python executable "D:\python\Python36\Python36", you can set the PYTHON env variable.解决方法:通过npm install -g cnpm --registry=https://registry.npm.taobao.org cnpm install

2021-10-13 22:19:41 823

原创 canal 全量/增量数据同步说明

一、日志文件完整1、全量数据同步1、修改\canal.deployer-1.1.5\conf\example下的instance.properties通过以下三个配置实现canal全量数据同步# mysql日志文件canal.instance.master.journal.name=mysql-bin.000001# 获取日志的起始位置canal.instance.master.position=0# 获取日志的起始时间戳canal.instance.master.timestamp=16

2021-09-29 10:07:05 7698 1

原创 通过第三方仓库安装Git

Git第三方仓库安装方式(IUS)1.安装使用里面说的自动化安装脚本curl https://setup.ius.io | sh2.然后可以看到 git2u相关内容yum search git 3.执行安装,并查看下版本yum remove -y git | yum -y install git2u#或yum remove -y git | yum -y install git2224.检查git是否安装成功,和查看版本git --version...

2021-09-07 10:23:54 142

原创 问题 sparksql Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded

在/sparkconf/spark-defaults.conf添加配置增加内存和核数spark.driver.memory 3gspark.executor.memory 2gspark.driver.cores 2spark.sql.broadcastTimeout=300 # 心跳检测间隔,以防数据量过大,超时报错

2021-06-07 11:40:51 531

原创 python postgresSQL的psycopg2:参数初始化编码格式

编码格式参数为client_encoding=“UTF-8”连接时如下:import psycopg2con = psycopg2.connect(dbname="test", user="user", password="password", port="5678", host="192.168.56.45", client_encoding="UTF-8")client_encodingThis sets the client_encoding configuration parameter

2021-03-15 15:22:14 1429

原创 centos mysql环境彻底清除

清除命令如下:yum remove mysql* mariadb* -y rm /etc/my.cnf rm -rf /var/lib/mysql rm -rf /usr/share/mysql rm -rf /usr/lib/mysql #查询mysql服务

2021-03-12 11:28:28 159

原创 Atlas2.1.0——编译安装使用

一、Atlas2.1.0编译编译环境:环境准备,jdk8_151以上,maven3.6.6下载源码包:国内下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.1.0/官方下载地址:http://atlas.apache.org/Downloads.html编译:1. 解压源码包,进入解压后源码包的目录。sudo tar -zxvf apache-atlas-2.1.0-sources.tar.gz #重命名mv ./apach

2021-01-22 17:07:03 582

原创 报错:CUDA out of memory

报错:RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 2.00 GiB total capacity; 1.27 GiB already allocated; 3.24 MiB free; 135.27 MiB cached)我查了一下发现电脑里面有两个显卡的,默认选择了intel的显卡(即是GPU 0...

2021-01-22 14:17:16 2373

原创 spark 启动thrift server实现hive on spark

在 spark的conf下 创建 hive-site.xml不过在CDH中,hive是默认为hive on spark的,而不是mr新增下面内容:<configuration> <property> <name>hive.metastore.client.connect.retry.delay</name> <value>5</value> </property> &lt

2021-01-21 08:55:08 712

转载 eclipse环境下报错:log cannot be resolved

转载于:https://blog.csdn.net/fjz_lihuapiaoxiang/article/details/83622934在eclipse环境下使用@Slf4j注解时,出现了log cannot be resolved这个异常。经过排查发现是缺少lombok插件的问题。解决方式当然是在eclipse中安装lombok插件啦。这里报错是因为没有lombok-1.16.20.jar这个插件下载完成以后,在eclipse的安装目录里找到eclipse.ini文件,E:\Tools\ecl

2020-11-18 09:13:32 2344

原创 python通过setup.py安装模块

步骤打开cmd到达安装目录python setup.py buildpython setup.py install

2020-11-16 10:02:06 164

转载 python离线安装外部依赖包

1.制作requirement.txt  pip freeze > requirement.txt  内网安装外部依赖包办法:例如:安装pytest包得时候会顺带安装pytest依赖包离线下载安装包下载单个离线包 - pip download -d your_offline_packages <package_name>批量下载离线包 - pip download -d your_offline_packages -r requirements.txt离线安装安装单个离线

2020-11-13 14:31:08 345

原创 数据治理平台Apache Atlas搭建与导入hive表

一、Atlas2.1.0编译编译环境:环境准备,jdk8_151以上,maven3.6.6下载源码包:国内下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.1.0/官方下载地址:http://atlas.apache.org/Downloads.html编译:解压源码包,进入解压后源码包的目录。cd /optsudo tar -zxvf apache-atlas-2.1.0-sources.tar.gz #重命名mv

2020-10-30 09:04:38 1523

原创 dremio详细部署流程

独立集群模式架构图:环境要求Linux:RHEL (Tarball):Red Hat Enterprise Linux(红帽企业版)CentOS 6.7+ and 7.3+ (RPM))(在使用RHEL or CentOS机器上使用Dremio Linux RPM installer可以部署)Java:jdk8浏览器:Google Chrome 54+、Microsoft Edge 14+(用于访问UI管理界面,Dremio UI 在 http://hostname:9047)Dremio

2020-10-30 08:47:17 2106 3

原创 windows10家庭版 Hyper-V 的安装与完全关闭

windows10家庭版装Hyper-V方法:pushd "%~dp0"dir /b %SystemRoot%\servicing\Packages\*Hyper-V*.mum >hyper-v.txtfor /f %%i in ('findstr /i . hyper-v.txt 2^>nul') do dism /online /norestart /add-package:"%SystemRoot%\servicing\Packages\%%i"del hyper-v.txtDi

2020-07-07 09:36:43 2651

原创 错误——由于ssh配置启动不了yarn

错误信息:[root@hadoop103 hadoop-2.7.1]# sbin/start-yarn.shstarting yarn daemonsstarting resourcemanager, logging to /opt/module/hadoop-2.7.1/logs/yarn-root-resourcemanager-hadoop103.outThe authenticity of host 'hadoop102 (192.168.0.11)' can't be establishe

2020-06-06 17:00:05 1277

原创 VirtualBox下centos7网络配置

记录网上找的方法:1、https://jingyan.baidu.com/article/ed15cb1b86ebb21be36981b5.html

2020-05-28 22:16:37 261

原创 安装spark 2.4.4之后尝试运行pyspark时出现的“TypeError:an integer is required(got type bytes)”错误

环境为Ubuntu、jdk8、spark-2.4.5-bin-hadoop2.7,python3.8.21、原因由于spark还不支持python3.82、解决方法所以将python降级即可,我降级到python3.6.9成功注意:要配置默认的python为python3.6.9,方法如下删除原有的python软链接 :rm /usr/bin/python 建立python到python3.6新的软链接:ln -s /usr/bin/python3.6 /usr/bin/python

2020-05-19 13:03:26 6735

原创 ubuntu安装Spark

一、安装JDK81、解压cd /usr/libsudo mkdir jvm #创建/usr/lib/jvm目录用来存放JDK文件cd ~ #进入hadoop用户的主目录cd Downloads #注意区分大小写字母,刚才已经通过FTP软件把JDK安装包jdk-8u162-linux-x64.tar.gz上传到该目录下sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm #把JDK文件解压到/usr/lib/jvm目录下2、

2020-05-19 11:52:37 576 1

原创 Ubuntu将默认的python3改为默认的python与Ubuntu无法登录root

标题Ubuntu将默认的python3改为默认的pythonryzen@cp7:~$ pythonCommand 'python' not found, did you mean:command 'python3' from deb python3root@DESKTOP-I:/usr/bin# echo alias python=python3 >> .bashrcroot@DESKTOP-I:/usr/bin# . ./.bashrcroot@DESKTOP-I:/usr/

2020-05-19 11:18:25 11350

原创 关于cuda版本问题

cuda版本选择:查看电脑的驱动版本:驱动和cuda版本对应图:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.htmlcuda版本下载(使用迅雷下载速度更快):https://developer.nvidia.com/cuda-toolkit-archive...

2020-04-30 00:20:34 1026

原创 保存tensorflow模型出现错误OSError: `pydot` failed to call GraphViz.Please install GraphViz

Traceback (most recent call last): File "D:\Python\Python36\lib\site-packages\pydot.py", line 1915, in create working_dir=tmp_dir, File "D:\Python\Python36\lib\site-packages\pydot.py", line 13...

2020-04-11 18:45:03 229

原创 关于PyQt5加载本地网页

加载相对路径html网页Main.py程序代码:import sysfrom PyQt5.QtCore import *from PyQt5.QtGui import *from PyQt5.QtWidgets import *from PyQt5.QtWebEngineWidgets import *class MainWindow(QMainWindow): def ...

2020-03-12 22:25:17 3778 1

原创 docker的ubuntu18镜像中关于pip3的报错问题

报错:root@a2e751235f1a:~/build# pip3 -VTraceback (most recent call last): File "/usr/bin/pip3", line 9, in <module> from pip import main File "/usr/lib/python3/dist-packages/pip/__init__...

2020-02-22 23:16:02 450

原创 windows10下docker的scala、spark安装与配置

ubuntu下安装scalasudo wget https://downloads.lightbend.com/scala/2.12.8/scala-2.12.8.tgz下载好后解压到:/usr/local/sudo tar zxvf scala-2.11.8.tgz -C /usr/local/删除安装包:rm scala-2.11.8.tgz进入到解压目录并重命名:cd /usr/...

2020-02-19 23:10:08 351

原创 关于pyinstaller打包问题

环境windows10+python3.6+pyinstaller3.41、pyinstaller打包时报错lib not found的问题pyinstaller打包时出现以下问题:lib not found: api-ms-win-cr…解决方法:pyinstaller -p C:\Windows\System32\downlevel xxx.py(xxx.py:你要打包的程序)网...

2020-02-11 14:24:37 1057

原创 scala基础语法—数组、

1、使用类型参数化数组在Scala中,可以使用new实例化类,创建对象的实例时,可以使用数值或类型参数。使用方括号来指明数据类型参数。如下:val helloStrings = new Array[String](2)helloStrings(0)="Hello"helloStrings(0)="world!\n"for(i <- 0 to 1) print(helloStrin...

2020-01-29 22:23:46 167

原创 scala基础语法—变量、函数、while、for

1、定义变量Scala定义了两种类型的变量val和var,val一旦初始化之后,不可以重新赋值(即常变量 )。而 var可以任意重新赋值。定义一个msg变量为字符串常量:val msg = "Hello World!"msg: String = Hello Worldscala可以根据赋值内容推算出变量的类型,为"type inference"(类型推断)。不过也可以明确指定变量的类型...

2020-01-28 21:39:53 142

转载 通过独立IP访问docker for windows 容器内网

https://www.cnblogs.com/brock0624/p/9788710.html

2019-12-27 12:25:20 512

原创 Docker镜像保存到本地、加载本地镜像

(1)查看要要保存的镜像的IDC:\Users\xixi>docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEubuntu latest 549b9b86cb8d 3 days a...

2019-12-23 10:06:02 5243

原创 docker基础命令

Docker 17 中文开发手册docker ps [OPTIONS]-a :显示所有的容器,包括未运行的docker ps -adocker images关闭容器:docker stop 容器ID或容器名docker system prune是用来删除不再使用的 docker 对象docker system prune #用来删除不再使用的 docker 对象 doc...

2019-12-22 10:16:59 109

原创 windows10下docker的hadoop集群安装与配置

docker ps -adocker imagesdocker system prunedocker ps -adocker run hello-world

2019-12-21 08:56:18 1229 1

原创 Python语言开发的图论与复杂网络建模工具—networkx节点染色

一、介绍networkx是一个用Python语言开发的图论与复杂网络建模工具。networkx支持创建简单无向图、有向图和多重图;内置许多标准的图论算法,节点可为任意数据;支持任意的边值维度,功能丰富,简单易用。数据段下面是画图所用到的数据(items2.txt):name,num,goods小明,1,橙子小明,1,苹果小明,1,番薯小红,1,柚子小红,1,苹果小红,1,火龙...

2019-12-10 09:31:18 1888

原创 java—集合

Collection接口:该接口是最基本的集合接口。1. List接口:该接口实现了Collection接口。List是有序、可重复。可以使用索引来访问List中的·元素。有:ArrayList:优点: 底层数据结构是数组,查询快,增删慢。缺点: 线程不安全,效率高Vector:优点: 底层数据结构是数组,查询快,增删慢。缺点: 线程安全,效率低LinkedList:优点: 底...

2019-12-09 22:18:44 60

原创 Linux awk学习——简介、变量、读取文件、BEGIN关键字、END关键字

1、简介awk 是一种处理文本文件的语言,是一个强大的文本分析工具。awk 其实不仅仅是工具软件,还是一种编程语言。awk 是以文件的一行内容为处理单位的。awk读取一行内容,然后根据指定条件判断是否处理此行内容,若此行文本符合条件,则按照动作处理文本,否则跳过此行文本,读取下一行进行判断。2、变量默认情况下,awk 会将如下变量分配给它在文本行中发现的数据字段(即一列):$0 代表整...

2019-11-30 23:35:59 889 1

原创 hadoop的I/O操作——压缩实现

codeccodec实现了一种压缩-解压缩算法。在hadoop中,一个对CompressionCodec接口的实现代表一个codec。例如,GzipCodec包装了gzip压缩和解压缩算法hadoop的压缩codec压缩格式HadoopCompressionCodecDEFLATEorg.apache.hadoop.io.conpress.DefaultCodec...

2019-11-04 22:50:56 215

原创 django 返回json数据为中文

1、javascript的导入路径设置:在项目新建static文件夹,在static文件夹下新建js文件夹2、在setting.xml设置,static文件路径STATIC_URL = ‘/static/’STATICFILES_DIRS = (os.path.join(BASE_DIR, ‘static’),)然后在html文件开头写{% load staticfiles %},...

2019-11-03 11:35:56 919

朴素贝叶斯分类算法_商品多分类_数据集.txt

朴素贝叶斯分类算法_商品多分类_数据集

2021-12-06

scala-2.11.12.rar

spark开发语言scala-2.11.12

2021-01-22

jd-gui.exe

反编译class软件,jd-gui.exe是一个用于Java编程语言源代码“.class”文件反编译软件。

2020-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除