python
铲子挖数据
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pandas 对比两个dataframe实现sql的‘not in‘的效果
其实最终我去遍历dataframe然后拼 ‘not in’ 的sql去了。???? 这种方式(百度看到的)应该跑起来挺快的,记录一下,下次实验一下。 import pandas as pd df1=pd.DataFrame({'authorID':['12','34','56']}) df2=pd.DataFrame({'authorID':['12','56','78','97']}) original_users=set(df1[['authorID']].values.reshape(-1)) for原创 2021-06-01 11:39:54 · 1436 阅读 · 0 评论 -
PySpark写入数据到Hbase的辛酸经历
环境配置: Python:3.7.4 Spark:2.4.4 Hbase:2.2.3 前言: 这个真的折磨了我好久(中途还接到需求,断断续续弄了好久,多久就不告诉你们了,免得你们笑我菜),真的辛酸。里面我的做法肯定有很多漏洞,而且还没完全解决,我会持续更新。另外,各位大神,如果友好的建议,评论区提点一下,万分感谢。 另外,本篇可能会有点长,不喜勿喷。。。。 数据格式: 一天一个压缩包(ZIP)...原创 2020-05-07 16:15:08 · 3404 阅读 · 1 评论 -
读取TXT文件写入数据到Hbase
环境配置: Python:3.7.4 Hbase:2.2.3 数据格式: 一天一个压缩包(ZIP),然后里面都是很多个TXT文件,分隔符是 “|” ,每个TXT文件大概是9000条数据这样。 我尝试使用了两种方法: 尝试一:shell命令导入(也可以写成脚本) 我直接上命令好了,这个百度就有: ./hbase org.apache.hadoop.hbase.mapreduce.ImportTsv...原创 2020-05-07 15:26:02 · 2358 阅读 · 1 评论 -
使用python完成Kafka+sparkstreaming+elasticsearch
在网上找了很久python的Kafka+sparkstreaming+elasticsearch的代码找不到,基本都是scala或者java的(好像是spark自己本身提供了库给java和scala写入ES?然而并没有可以提供给python的????),所以自己写了一个,能正常运行,但是感觉这样写不太好,想发出来和大家交流一下。 from elasticsearch import Elasticsear...原创 2020-02-25 11:17:57 · 546 阅读 · 0 评论
分享