RHobart
码龄9年
关注
提问 私信
  • 博客:9,807
    9,807
    总访问量
  • 12
    原创
  • 1,951,002
    排名
  • 1
    粉丝
  • 0
    铁粉

个人简介:探索一切未知的东西

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:陕西省
  • 加入CSDN时间: 2016-02-06
博客简介:

RShbwq的博客

查看详细资料
个人成就
  • 获得1次点赞
  • 内容获得1次评论
  • 获得1次收藏
创作历程
  • 7篇
    2020年
  • 1篇
    2018年
  • 5篇
    2017年
成就勋章
TA的专栏
  • 大数据
    7篇
  • 网络爬虫
    2篇
  • python学习笔记
    3篇
  • Mysql-学习
    1篇
  • 网络
    1篇
  • python 数据处理
    2篇
兴趣领域 设置
  • 大数据
    hadoophivespark
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

186人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

GeoSpark--Polygon查询

自转:https://www.jianshu.com/p/cb8b14c658b7
转载
发布博客 2020.11.26 ·
320 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

非work count的样例

参考我的简书文章:https://www.jianshu.com/p/28bcfe3fd25c
原创
发布博客 2020.11.23 ·
135 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

纪念一次GC overhead limit exceeded的问题

环境:pycharm-2020.1 + spark-2.3.3(单机默认配置)需求:需要将dataframe 中数据转成json 并写入到s3对象文件中,数据量大小为180.1M。解决方向:在不改变资源参数的情况下,解决GC问题(这只是其中方法之一)出错的核心代码如下:if __name__ == "__main__": """ 1. load the conf of es 2. build spark or sc 3. build
原创
发布博客 2020.11.06 ·
434 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flink checkpoint 在gradle 中的配置

创建上下文环境val streamEnv = StreamExecutionEnvironment.getExecutionEnvironmentstreamEnv.setStateBackend(RocksDBStateBackend)flink 中的checkpoint 有三种配置:1. MemoryStateBackend (flink默认配置)2. FsStateBackend (需要手动配置)3. RocksDBStateBackend (需要额外的包,如下gradle中的代码.
原创
发布博客 2020.11.03 ·
194 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Ubuntu 安装elasticsearch

一、工具:ubuntu20.04 + elasticsearch-7.9.1 + jdk1.8二、下载与上传elasticsearch三、安装elasticsearch 注意root用户下将es拥有者改为非root: chown -R es:es ./elasticsearch四、配置elasticsearch a. 切换到elasticsearch config 目录,修改elasticsearch.yaml,修改的有: # -------------...
原创
发布博客 2020.10.22 ·
746 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Pyspark combineByKey 的算子详解

rdd = sc.parallelize([('B',1),('B',2),('A',5),('A',4),('A',3)]).repartition(3)print("partitions details:",rdd.glom().collect())inOfPartion = (lambda el: [(el, el ** 2)])mergeValInOfPartion = (lambda agg1,e:agg1+[(e,e**2)])mergeOutOfPartition = (lambd.
原创
发布博客 2020.10.22 ·
240 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flink 简单的批处理样例

1. 第一个import是引入flink 批处理执行所需要的环境2. 第二个import是引入flink 的隐式转换,如果没有这个,就会报错3. flink 批处理是不需要env.execute(),这个要特别注意,不然会报各种奇怪的问题4. 注意流式引入与批处理引入的包不一样以下式流式处理的包import org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.api.scala.StreamExecu.
原创
发布博客 2020.10.22 ·
333 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据处理--列表相加

ls = [1,6,3,6,8]ls2 = [4,6,8,9,0]第一种方法:以最短的列表的长度为主rslt = [d[0]+d[1] for d in zip(ls,ls2)]第二种方法:for循环,以最短的列表长度为主length = len(ls) if len(ls) <= len(ls2) else len(ls2)new_list = [None] * l...
原创
发布博客 2018.11.13 ·
2401 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Http以及TCP/IP协议

http协议,亦称超文本传输协议:是属于应用层的面向对象的协议,它包括三部分内容:1.请求行;2.消息报头(也称请求头);3.请求正文;现在来仔细谈谈这三方面的内容: 请求篇1.请求行:请求行包括请求方法,访问的资源,以及http版本号; 请求方法包括:GET,PUT,HEAD,Request,Delete,Trace.当然还有其他的。访问的资源,如:xxx.jpg,xxx.txt。http版本
原创
发布博客 2017.10.07 ·
2089 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Mysql存储过程

最近在搞MYSQL。不停的在在复制表,后来嫌麻烦,写了一个存储过程。大家可能都非常清楚如何去复制一张表:create table new_table_name like old_table_name;insert into new_table_name (select * from old_table _name);这两句sql虽然简单,但是在需要一张跟之前完全一样的表时,不断的去写这两句sql太
原创
发布博客 2017.09.29 ·
307 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python工具包以及资源包

对于大多数学习Python的人来说,经常会安装一些这样,那样的包(或者说是库),但是有时候就不太清楚用什么工具,在哪找相应的包。那今天我想分享下有哪些下载工具以及在哪下载资源包。下载工具:pip install xxx.whl(适用于2.x) ;pip3 install xxx.whl(适用于2.x,3.x);easy_install xxx将相应的资源tar,下载下来解压,然后python
原创
发布博客 2017.09.29 ·
611 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

百度图片动态爬取3.0

之前我写百度图片的1.0,2.0,代码在我的GitHub,以及简书上也有我的代码; GitHub地址:https://github.com/RHobart/Web-Crawlers 简书地址:http://www.jianshu.com/p/567542a57af2 今天我在这里写的是关于3.0,这个3.0是对之前百度图片爬虫的一种加强;主要涉及异常处理以及数据库的使用,跟2.0版本其实相差不
原创
发布博客 2017.09.27 ·
650 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
原创
发布博客 2017.09.27 ·
239 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏