自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 pandas dataframe数据 保存为中文图片

解决dataframe格式数据保存为图片, 以及中文乱码问题

2022-10-18 10:45:55 1170

原创 TensorFlow2.3 安装cpu版本报错

TensorFlow2.3 安装cpu 版本报错问题:1.使用anaconda 创建环境conda create -n tensorflow2.3 python=3.72.直接下载安装cpu版本方式1:conda install --channel https://conda.anaconda.org/anaconda tensorflow==2.3.0这个路径安装比较慢, 但是安装完不会报错方式2:或者 不指定地址直接使用国内镜像下载 conda install tensor

2021-04-28 21:23:36 657 1

原创 linux 安装 jupyter报错解决

直接 pip install jupyter 安装报以下错误ERROR: Could not find a version that satisfies the requirement jupyterlab-widgets>=1.0.0; python_version >= "3.5" (from ipywidgets->jupyter) (from versions: 0.3.2, 0.3.3, 0.4.0, 0.4.1, 0.5.0, 0.6.0, 0.6.1, 0.6.2,

2021-01-05 11:12:19 1343

原创 pyspark调用sklearn相关模型测试

**Pyspark 调用sklearn训练好的模型时,关键是注意数据类型的转换, numpy数据类型和结构转化为pyspark可以识别的.主要是通过广播,将模型广播到executor,进行运算;同理,其他python库的相关模型也可以在pyspark上进行分布式运算.**1.基于rdd调用sklearn训练好的模型from pyspark import SparkContext, SparkConffrom pyspark.ml.linalg import Vectorsfrom pyspa

2020-11-12 16:41:44 1219

转载 如何在Apache Pyspark中运行Scikit-learn模型

原文地址: https://baijiahao.baidu.com/s?id=1654340799888656128&wfr=spider&for=pc在本文中,我们将了解如何在Apache Pyspark中运行Scikit-learn模型,并讨论有关每个步骤的细节。如果您已经准备好了机器学习模型,则可以直接跳到“ pyspark wrapper”部分,也可以通过以下步骤创建一个简单的scikit learn机器学习模型。scikit learn机器学习模型:我们使用Python创建

2020-10-14 17:46:17 603

原创 spark TF-IDf CountVectorizer单词对应索引

* CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。 * 当先验字典不可用时,CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。 * 该模型为词汇表上的文档生成稀疏向量表示方式,然后可以将其传递给其他算法,例如LDA。 * * 在拟合过程中,CountVectorizer将选择整个语料库中按词频排列的前vocabSize词。 * 可选参数minDF还通过指定一个术语.

2020-09-17 21:04:22 528

转载 SHELL打印两个日期之间的日期

[root@umout shell]# cat date_to_date.sh THIS_PATH=$(cd `dirname $0`;)cd $THIS_PATH##要求传入的数据格式为yyyyMMdd的两个开始和结束参数,如20170201 20170310start_input=$1end_input=$2##将输入的日期转为的时间戳格式startDate=`date -d "${start_input}" +%s`endDate=`date -d "${end_input}"

2020-08-20 18:15:02 379

原创 Spark Streaming‘s Kafka libraries not found in class path

报错Spark Streaming’s Kafka libraries not found in class path. Try one of the following.缺少spark-streaming-kafka-0-8:2.4.3 …该jar包jar包的下载地址将下载的jar包放在/opt/anaconda3/envs/python37/lib/python3.7/site-packages/pyspark/jars目录下如果没有使用anaconda, 而是pip3但是不知道放哪

2020-08-20 17:52:26 559

原创 报错:It appears that you are attempting to reference SparkContext from a broadcast variable, action

报错_pickle.PicklingError: Could not serialize object: Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transformation. SparkContext can only be used on the driver, not in code that it run on wor

2020-06-24 18:17:06 4353

原创 pyspark中rdd 和dataframe的各种join函数和crossJoin函数

1.数据from pyspark import SparkContext, SparkConf, Rowfrom pyspark.sql import SparkSessionconf=SparkConf().setAppName("test").setMaster("local[*]")sc=SparkContext(conf=conf)spark=SparkSession(sc)# Input data: Each row is a bag of words with a ID.df1 =

2020-06-24 16:21:02 4228

原创 Python使用pandas读取hdfs文件

代码如下 from pyhdfs import HdfsClient client = HdfsClient(hosts='192.168.1.1:50070') # TypeError: cannot use a string pattern on a bytes-like object #从hdfs中读取文件 file = client.open("/data/movielens/train/ra.train") #获取内容

2020-06-11 15:54:45 5076

原创 pycharm中配置spark

在本机上安装和配置好spark环境2.之后在setings中 项目结构中 导入py4j和pyspark的包包路径为C:\spark-2.2.0-bin-hadoop2.6\python\lib3.配置环境4.配置成功

2020-06-09 17:08:40 392

原创 linux如何安装setup.py程序

这里写自定义目录标题linux中卸载程序:[dd@master platform]$ pip3 uninstall platform在setup.py文件夹下第一步:[dd@master platform]$ python3 setup.py build第二步:[dd@master platform]$ python3 setup.py install安装完成

2020-06-02 18:37:55 1006

原创 IDEA不能识别虚拟机地址

IDEA不能识别虚拟机地址IDEA报错原因复制别人的虚拟机,其hostname与C:\Windows\System32\drivers\etc\hosts中的名字不一样造成的

2019-12-12 09:40:25 490

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除