python
铲子挖数据
这个作者很懒,什么都没留下…
展开
-
pandas 对比两个dataframe实现sql的‘not in‘的效果
其实最终我去遍历dataframe然后拼 ‘not in’ 的sql去了。????这种方式(百度看到的)应该跑起来挺快的,记录一下,下次实验一下。import pandas as pddf1=pd.DataFrame({'authorID':['12','34','56']})df2=pd.DataFrame({'authorID':['12','56','78','97']})original_users=set(df1[['authorID']].values.reshape(-1))for原创 2021-06-01 11:39:54 · 1297 阅读 · 0 评论 -
PySpark写入数据到Hbase的辛酸经历
环境配置:Python:3.7.4Spark:2.4.4Hbase:2.2.3前言:这个真的折磨了我好久(中途还接到需求,断断续续弄了好久,多久就不告诉你们了,免得你们笑我菜),真的辛酸。里面我的做法肯定有很多漏洞,而且还没完全解决,我会持续更新。另外,各位大神,如果友好的建议,评论区提点一下,万分感谢。另外,本篇可能会有点长,不喜勿喷。。。。数据格式:一天一个压缩包(ZIP)...原创 2020-05-07 16:15:08 · 3140 阅读 · 1 评论 -
读取TXT文件写入数据到Hbase
环境配置:Python:3.7.4Hbase:2.2.3数据格式:一天一个压缩包(ZIP),然后里面都是很多个TXT文件,分隔符是 “|” ,每个TXT文件大概是9000条数据这样。我尝试使用了两种方法:尝试一:shell命令导入(也可以写成脚本)我直接上命令好了,这个百度就有:./hbase org.apache.hadoop.hbase.mapreduce.ImportTsv...原创 2020-05-07 15:26:02 · 2198 阅读 · 1 评论 -
使用python完成Kafka+sparkstreaming+elasticsearch
在网上找了很久python的Kafka+sparkstreaming+elasticsearch的代码找不到,基本都是scala或者java的(好像是spark自己本身提供了库给java和scala写入ES?然而并没有可以提供给python的????),所以自己写了一个,能正常运行,但是感觉这样写不太好,想发出来和大家交流一下。from elasticsearch import Elasticsear...原创 2020-02-25 11:17:57 · 457 阅读 · 0 评论