qq_40285736
码龄7年
关注
提问 私信
  • 博客:20,949
    20,949
    总访问量
  • 12
    原创
  • 1,066,042
    排名
  • 3
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-09-17
博客简介:

qq_40285736的博客

查看详细资料
个人成就
  • 获得12次点赞
  • 内容获得2次评论
  • 获得50次收藏
创作历程
  • 1篇
    2022年
  • 2篇
    2021年
  • 10篇
    2020年
  • 1篇
    2019年
成就勋章
TA的专栏
  • Python
    1篇
  • tensorflow
    1篇
  • spark
    2篇
  • sklearn
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

pandas dataframe数据 保存为中文图片

解决dataframe格式数据保存为图片, 以及中文乱码问题
原创
发布博客 2022.10.18 ·
1028 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

TensorFlow2.3 安装cpu版本报错

TensorFlow2.3 安装cpu 版本报错问题:1.使用anaconda 创建环境conda create -n tensorflow2.3 python=3.72.直接下载安装cpu版本方式1:conda install --channel https://conda.anaconda.org/anaconda tensorflow==2.3.0这个路径安装比较慢, 但是安装完不会报错方式2:或者 不指定地址直接使用国内镜像下载 conda install tensor
原创
发布博客 2021.04.28 ·
550 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

linux 安装 jupyter报错解决

直接 pip install jupyter 安装报以下错误ERROR: Could not find a version that satisfies the requirement jupyterlab-widgets>=1.0.0; python_version >= "3.5" (from ipywidgets->jupyter) (from versions: 0.3.2, 0.3.3, 0.4.0, 0.4.1, 0.5.0, 0.6.0, 0.6.1, 0.6.2,
原创
发布博客 2021.01.05 ·
1263 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

pyspark调用sklearn相关模型测试

**Pyspark 调用sklearn训练好的模型时,关键是注意数据类型的转换, numpy数据类型和结构转化为pyspark可以识别的.主要是通过广播,将模型广播到executor,进行运算;同理,其他python库的相关模型也可以在pyspark上进行分布式运算.**1.基于rdd调用sklearn训练好的模型from pyspark import SparkContext, SparkConffrom pyspark.ml.linalg import Vectorsfrom pyspa
原创
发布博客 2020.11.12 ·
1145 阅读 ·
0 点赞 ·
0 评论 ·
14 收藏

如何在Apache Pyspark中运行Scikit-learn模型

原文地址: https://baijiahao.baidu.com/s?id=1654340799888656128&wfr=spider&for=pc在本文中,我们将了解如何在Apache Pyspark中运行Scikit-learn模型,并讨论有关每个步骤的细节。如果您已经准备好了机器学习模型,则可以直接跳到“ pyspark wrapper”部分,也可以通过以下步骤创建一个简单的scikit learn机器学习模型。scikit learn机器学习模型:我们使用Python创建
转载
发布博客 2020.10.14 ·
539 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

spark TF-IDf CountVectorizer单词对应索引

* CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。 * 当先验字典不可用时,CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。 * 该模型为词汇表上的文档生成稀疏向量表示方式,然后可以将其传递给其他算法,例如LDA。 * * 在拟合过程中,CountVectorizer将选择整个语料库中按词频排列的前vocabSize词。 * 可选参数minDF还通过指定一个术语.
原创
发布博客 2020.09.17 ·
464 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

SHELL打印两个日期之间的日期

[root@umout shell]# cat date_to_date.sh THIS_PATH=$(cd `dirname $0`;)cd $THIS_PATH##要求传入的数据格式为yyyyMMdd的两个开始和结束参数,如20170201 20170310start_input=$1end_input=$2##将输入的日期转为的时间戳格式startDate=`date -d "${start_input}" +%s`endDate=`date -d "${end_input}"
转载
发布博客 2020.08.20 ·
337 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark Streaming‘s Kafka libraries not found in class path

报错Spark Streaming’s Kafka libraries not found in class path. Try one of the following.缺少spark-streaming-kafka-0-8:2.4.3 …该jar包jar包的下载地址将下载的jar包放在/opt/anaconda3/envs/python37/lib/python3.7/site-packages/pyspark/jars目录下如果没有使用anaconda, 而是pip3但是不知道放哪
原创
发布博客 2020.08.20 ·
504 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

报错:It appears that you are attempting to reference SparkContext from a broadcast variable, action

报错_pickle.PicklingError: Could not serialize object: Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transformation. SparkContext can only be used on the driver, not in code that it run on wor
原创
发布博客 2020.06.24 ·
4236 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

pyspark中rdd 和dataframe的各种join函数和crossJoin函数

1.数据from pyspark import SparkContext, SparkConf, Rowfrom pyspark.sql import SparkSessionconf=SparkConf().setAppName("test").setMaster("local[*]")sc=SparkContext(conf=conf)spark=SparkSession(sc)# Input data: Each row is a bag of words with a ID.df1 =
原创
发布博客 2020.06.24 ·
4151 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

Python使用pandas读取hdfs文件

代码如下 from pyhdfs import HdfsClient client = HdfsClient(hosts='192.168.1.1:50070') # TypeError: cannot use a string pattern on a bytes-like object #从hdfs中读取文件 file = client.open("/data/movielens/train/ra.train") #获取内容
原创
发布博客 2020.06.11 ·
4977 阅读 ·
3 点赞 ·
0 评论 ·
14 收藏

pycharm中配置spark

在本机上安装和配置好spark环境2.之后在setings中 项目结构中 导入py4j和pyspark的包包路径为C:\spark-2.2.0-bin-hadoop2.6\python\lib3.配置环境4.配置成功
原创
发布博客 2020.06.09 ·
332 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

linux如何安装setup.py程序

这里写自定义目录标题linux中卸载程序:[dd@master platform]$ pip3 uninstall platform在setup.py文件夹下第一步:[dd@master platform]$ python3 setup.py build第二步:[dd@master platform]$ python3 setup.py install安装完成
原创
发布博客 2020.06.02 ·
968 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

IDEA不能识别虚拟机地址

IDEA不能识别虚拟机地址IDEA报错原因复制别人的虚拟机,其hostname与C:\Windows\System32\drivers\etc\hosts中的名字不一样造成的
原创
发布博客 2019.12.12 ·
455 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏