自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 pandas 中dataframe 中的模糊匹配 与pyspark dataframe 中的模糊匹配

1.pandas  dataframe 匹配一个很简单,批量匹配如下df_obj[df_obj['title'].str.contains(r'.*?n.*')] #使用正则表达式进行模糊匹配,*匹配0或无限次,?匹配0或1次pyspark dataframe 中模糊匹配有两种方式2.spark  dataframe  api,  filter rlike 联合使用df1=d...

2018-07-24 13:56:33 13903

原创 mongodb 安装,卸载,重装

准确安装步骤:1.去mongodb官网(http://www.mongodb.org/downloads)下载linux版本的安装包我下载了这个版本mongodb-linux-x86_64-ubuntu1404-v3.4-latest.tgz2.rz 在服务器上,放在/usr/local 目录下,mkdir mongodb3.tar -zxvf mongodb-linux-x86_64-ubunt...

2018-07-11 14:32:47 7037

原创 spark 学习笔记一

yarn 优化了mapreduce 的资源调度问题.但最初mapreduce 的设计模式要求将中间数据存储在磁盘上,并在网络中传输,这样会导致计算效率不高的问题,spark是一种类mapreduce 的通用并行框架,不同于mapreduce 算法的是,spark 任务的中间结果可以保存在内存中,从而不用再读写hdfs.而且spark 还提出了RDD 的概念,调度中采用了更为通用的有向任务执行计划图...

2018-07-10 11:33:24 211

原创 大数据架构学习之——数据处理

根据处理的及时性不同,可以分为离线处理和在线处理在线处理对实时响应要求较高,离线处理对实时响应没有要求hadoop是生产饮料的公司  随着市场的扩张,目前的仓库不能满足现在的存储要求,需要在郊外扩张几个仓库,类似于hdfs 的分布式存储,解决了原材料的存储问题flume 提供水源质量不稳定,hadoop 采用自定检测水的仪器mapper 和最先进的组装生产线reducer,mapper 可以对水质...

2018-07-10 11:00:56 201

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除