- 博客(14)
- 收藏
- 关注
原创 TensorFlow2.3 安装cpu版本报错
TensorFlow2.3 安装cpu 版本报错问题:1.使用anaconda 创建环境conda create -n tensorflow2.3 python=3.72.直接下载安装cpu版本方式1:conda install --channel https://conda.anaconda.org/anaconda tensorflow==2.3.0这个路径安装比较慢, 但是安装完不会报错方式2:或者 不指定地址直接使用国内镜像下载 conda install tensor
2021-04-28 21:23:36
657
1
原创 linux 安装 jupyter报错解决
直接 pip install jupyter 安装报以下错误ERROR: Could not find a version that satisfies the requirement jupyterlab-widgets>=1.0.0; python_version >= "3.5" (from ipywidgets->jupyter) (from versions: 0.3.2, 0.3.3, 0.4.0, 0.4.1, 0.5.0, 0.6.0, 0.6.1, 0.6.2,
2021-01-05 11:12:19
1343
原创 pyspark调用sklearn相关模型测试
**Pyspark 调用sklearn训练好的模型时,关键是注意数据类型的转换, numpy数据类型和结构转化为pyspark可以识别的.主要是通过广播,将模型广播到executor,进行运算;同理,其他python库的相关模型也可以在pyspark上进行分布式运算.**1.基于rdd调用sklearn训练好的模型from pyspark import SparkContext, SparkConffrom pyspark.ml.linalg import Vectorsfrom pyspa
2020-11-12 16:41:44
1219
转载 如何在Apache Pyspark中运行Scikit-learn模型
原文地址: https://baijiahao.baidu.com/s?id=1654340799888656128&wfr=spider&for=pc在本文中,我们将了解如何在Apache Pyspark中运行Scikit-learn模型,并讨论有关每个步骤的细节。如果您已经准备好了机器学习模型,则可以直接跳到“ pyspark wrapper”部分,也可以通过以下步骤创建一个简单的scikit learn机器学习模型。scikit learn机器学习模型:我们使用Python创建
2020-10-14 17:46:17
603
原创 spark TF-IDf CountVectorizer单词对应索引
* CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。 * 当先验字典不可用时,CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。 * 该模型为词汇表上的文档生成稀疏向量表示方式,然后可以将其传递给其他算法,例如LDA。 * * 在拟合过程中,CountVectorizer将选择整个语料库中按词频排列的前vocabSize词。 * 可选参数minDF还通过指定一个术语.
2020-09-17 21:04:22
528
转载 SHELL打印两个日期之间的日期
[root@umout shell]# cat date_to_date.sh THIS_PATH=$(cd `dirname $0`;)cd $THIS_PATH##要求传入的数据格式为yyyyMMdd的两个开始和结束参数,如20170201 20170310start_input=$1end_input=$2##将输入的日期转为的时间戳格式startDate=`date -d "${start_input}" +%s`endDate=`date -d "${end_input}"
2020-08-20 18:15:02
379
原创 Spark Streaming‘s Kafka libraries not found in class path
报错Spark Streaming’s Kafka libraries not found in class path. Try one of the following.缺少spark-streaming-kafka-0-8:2.4.3 …该jar包jar包的下载地址将下载的jar包放在/opt/anaconda3/envs/python37/lib/python3.7/site-packages/pyspark/jars目录下如果没有使用anaconda, 而是pip3但是不知道放哪
2020-08-20 17:52:26
559
原创 报错:It appears that you are attempting to reference SparkContext from a broadcast variable, action
报错_pickle.PicklingError: Could not serialize object: Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transformation. SparkContext can only be used on the driver, not in code that it run on wor
2020-06-24 18:17:06
4353
原创 pyspark中rdd 和dataframe的各种join函数和crossJoin函数
1.数据from pyspark import SparkContext, SparkConf, Rowfrom pyspark.sql import SparkSessionconf=SparkConf().setAppName("test").setMaster("local[*]")sc=SparkContext(conf=conf)spark=SparkSession(sc)# Input data: Each row is a bag of words with a ID.df1 =
2020-06-24 16:21:02
4228
原创 Python使用pandas读取hdfs文件
代码如下 from pyhdfs import HdfsClient client = HdfsClient(hosts='192.168.1.1:50070') # TypeError: cannot use a string pattern on a bytes-like object #从hdfs中读取文件 file = client.open("/data/movielens/train/ra.train") #获取内容
2020-06-11 15:54:45
5076
原创 pycharm中配置spark
在本机上安装和配置好spark环境2.之后在setings中 项目结构中 导入py4j和pyspark的包包路径为C:\spark-2.2.0-bin-hadoop2.6\python\lib3.配置环境4.配置成功
2020-06-09 17:08:40
392
原创 linux如何安装setup.py程序
这里写自定义目录标题linux中卸载程序:[dd@master platform]$ pip3 uninstall platform在setup.py文件夹下第一步:[dd@master platform]$ python3 setup.py build第二步:[dd@master platform]$ python3 setup.py install安装完成
2020-06-02 18:37:55
1006
原创 IDEA不能识别虚拟机地址
IDEA不能识别虚拟机地址IDEA报错原因复制别人的虚拟机,其hostname与C:\Windows\System32\drivers\etc\hosts中的名字不一样造成的
2019-12-12 09:40:25
490
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅