工作笔记记录

最新推荐文章于 2024-08-21 08:28:14 发布

KazeHelloWorld

最新推荐文章于 2024-08-21 08:28:14 发布

阅读量87

点赞数

分类专栏：项目

本文链接：https://blog.csdn.net/KazeHelloWorld/article/details/119000206

版权

项目专栏收录该内容

7 篇文章 1 订阅

订阅专栏

工作笔记

2021.07.22

pyspark 获取sql数据

import os, re, json, time, datetime

from tqdm import tqdm
import pandas as pd
import numpy as np
from collections import Counter
from pyspark import SparkConf
from pyspark.sql import SparkSession

conf = SparkConf().setMaster('yarn') \
            .set('spark.yarn.queue', 'root.zw01.hadoop-grocery.etltest') \
            .set('spark.executor.memory', '15G') \
            .set("spark.driver.memory", "60g")  # 增加jvm的内存

spark = SparkSession.builder.config(conf=conf).enableHiveSupport().getOrCreate()
def read_hive_by_sql(sql, tag):
    '''
        读取hive表数据
    '''
    tmpDf = spark.sql( sql )
    tmpDf = pd.DataFrame( tmpDf.collect(), columns=tmpDf.columns )
    print ( '{0}->样本数：{1}'.format(tag, tmpDf.shape[0]) )
    return tmpDf
sql = '''

select normalized_name, category_id, picture_urls from mart_grocery_udc.dim_standard_sku_all
where normalized_name like '%金装卷纸%'

'''
read_hive_by_sql(sql,'search')

复制文件夹

import os, shutil
os.getcwd()
shutil.copytree('./v1_torch/', '/home/hadoop-datamining/cephfs/data/zhanghaozhou/v1_torch')

2021.7.23

pandas取两个表里的不同行：

def anti_join(x, y, on):
    """
    :param x:
    :param y:
    :param on:如没有特殊需求,可以不要这个参数
    :return: 返回x中不包含y的部分
    """
    ans = pd.merge(left=x, right=y, how='left', indicator=True, on=on)
    ans = ans.loc[ans._merge == 'left_only', :].drop(columns='_merge')
    return ans

取相同行：

s1 = pd.merge(df1, df2, how='inner', on=['userId'， 'movieId'])

将Series转换成DF

import numpy as np  
import pandas as pd

# 将Series转换为DataFrame
data = pd.Series(np.random.randn(10)*500+1000,  
                 index=['A37','A50','R7S','Note5',
                        'G7','R9_Plus','5C','X5_Pro','MX3','M5'])

df = pd.DataFrame({'Product_Name':data.index, 'Price':data.values})  
print(df)

2021.7.30

git 版本回滚
 Pytorch获取中间层输出的几种方法

KazeHelloWorld

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
工作笔记记录

工作笔记2021.07.222021.07.22pyspark 获取sql数据import os, re, json, time, datetimefrom tqdm import tqdmimport pandas as pdimport numpy as npfrom collections import Counterfrom pyspark import SparkConffrom pyspark.sql import SparkSessionconf = SparkConf
复制链接

扫一扫

专栏目录