工作笔记记录

2021.07.22

  • pyspark 获取sql数据

    import os, re, json, time, datetime
    
    from tqdm import tqdm
    import pandas as pd
    import numpy as np
    from collections import Counter
    from pyspark import SparkConf
    from pyspark.sql import SparkSession
    
    conf = SparkConf().setMaster('yarn') \
                .set('spark.yarn.queue', 'root.zw01.hadoop-grocery.etltest') \
                .set('spark.executor.memory', '15G') \
                .set("spark.driver.memory", "60g")  # 增加jvm的内存
    
    spark = SparkSession.builder.config(conf=conf).enableHiveSupport().getOrCreate()
    def read_hive_by_sql(sql, tag):
        '''
            读取hive表数据
        '''
        tmpDf = spark.sql( sql )
        tmpDf = pd.DataFrame( tmpDf.collect(), columns=tmpDf.columns )
        print ( '{0}->样本数:{1}'.format(tag, tmpDf.shape[0]) )
        return tmpDf
    sql = '''
    
    select normalized_name, category_id, picture_urls from mart_grocery_udc.dim_standard_sku_all
    where normalized_name like '%金装卷纸%'
    
    '''
    read_hive_by_sql(sql,'search')
    
  • 复制文件夹

    import os, shutil
    os.getcwd()
    shutil.copytree('./v1_torch/', '/home/hadoop-datamining/cephfs/data/zhanghaozhou/v1_torch')
    

2021.7.23

  • pandas取两个表里的不同行:

    def anti_join(x, y, on):
        """
        :param x:
        :param y:
        :param on:如没有特殊需求,可以不要这个参数
        :return: 返回x中不包含y的部分
        """
        ans = pd.merge(left=x, right=y, how='left', indicator=True, on=on)
        ans = ans.loc[ans._merge == 'left_only', :].drop(columns='_merge')
        return ans
    
  • 取相同行:

    s1 = pd.merge(df1, df2, how='inner', on=['userId''movieId'])
    
  • 将Series转换成DF

    import numpy as np  
    import pandas as pd
    
    # 将Series转换为DataFrame
    data = pd.Series(np.random.randn(10)*500+1000,  
                     index=['A37','A50','R7S','Note5',
                            'G7','R9_Plus','5C','X5_Pro','MX3','M5'])
    
    df = pd.DataFrame({'Product_Name':data.index, 'Price':data.values})  
    print(df)
    

2021.7.30


git 版本回滚

Pytorch获取中间层输出的几种方法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值