奋斗的妹子-CSDN博客

原创 linux常用操作

上述的j为通过bzip2压缩或解压缩，可以改为z通过gzip，文件后缀为tar.gz；账号相关信息在/etc/passwd，个人密码记录在/etc/shadow，所有组名记录在/etc/group里。2、bzip2比gzip更佳，但时间一般更久，用法与gzip一致。3、xz比bzip2更佳，但时间一般更久，用法与gzip一致。-c 将压缩的数据输出到屏幕上，可通过数据流重定向来处理。*.tar tar程序打包的文件，并没有压缩过。-# 压缩等级，-1最快，-9最慢，默认-6。

2023-10-10 14:09:09 58

原创 PYTHON常用函数

5、random_state 可选参数，控制随机状态，默认为 None，表示随机数据不会重复；对一维数组随机排序：a=np.random.permutation([0,1,2,3,4,5,6,7,8,9])3、replace：布尔值参数，表示是否以有放回抽样的方式进行选择，默认为 False，取出数据后不再放回。6、axis 表示在哪个方向上抽取数据(axis=1 表示列/axis=0 表示行)。2、frac：表示抽取的比例，比如 frac=0.5，代表抽取总体数据的50%。1、n：表示要抽取的行数。

2023-07-28 10:18:44 91

原创 Excel常规函数，你值得拥有

1、发现重复项countifCOUNTIF对区域中满足单个指定条件的单元格进行计数=COUNTIF(A:A,A2)=COUNTIF(A$2:A2,A2)2、if函数执行真假值判断，根据逻辑计算的真假值，返回结果=IF(COUNTIF(B3:H3,"<>0")>3,"错误","正确")3、or、and=OR(A2=1,A2=2)=FALSE=AND(A2=1,A2=2)=FALSE4、字段合并concattext(A2,“0%”),可恢复原数字格式=CONCAT

2022-05-18 09:07:58 204

原创 pandas形成字典

value为一个字段df.groupby(‘key’)[‘value’].apply(list).to_dict()标题df_dict = df.to_dict(orient='records')for i in range(len(df_dict)): values = list() for k, v in df_dict[i].items(): values.append(v)

2022-02-18 17:50:03 650

原创正则表达式

标题ub批量替换re.sub('.*医院', '医院', text)选择第一个数字之前的内容re.split('[0-9]', text)[0]

2022-02-18 16:40:08 149

原创统计数据有值率

统计表格里所有字典的有值率，仅需三条简简单单的语句df_result = (pd.DataFrame((df.isnull()).sum()/df.shape[0]).reset_index())df_result.columns=['字段名称','缺失率']df_result['有值率'] = 1-df_result['缺失率']

2021-12-28 10:47:08 587

原创 pandas基本操作

1、删除某一列df_color = df_color.drop(‘12345颜’,axis=1)2、使用merge,根据多个条件进行合并df_taskinfo_color = df_taskinfo.merge(df_color,how=‘left’,on=[‘a’,‘b’,‘c’,‘d’])3、读取文件时只选择某几列data = pd.read_csv(‘data.csv’,usecols=[0,1,2])更改某列的名称df_find = pd.concat([df_find1,df_fin

2021-10-26 18:42:10 576

原创 jupyter notebook快捷键

来源于：链接: https://blog.csdn.net/QimaoRyan/article/details/76022038#23%E7%BC%96%E8%BE%91%E6%A8%A1%E5%BC%8F%E5%BF%AB%E6%8D%B7%E9%94%AE.1.Jupyter Notebook服务启动与停止环境为Windows10系统首先进入命令提示符cmd，用cd命令切换到工作目录，这里不做详细解释，可自行百度键入命令jupyter notebook之后Jupyter Notebook服务就

2021-10-07 17:55:38 95

原创 pytorch实战-03图像处理

1、常用方法1.1 transforms将图像的数据类型转为tensor，方便后续的训练。from torchvision import transformsfrom PIL import Imageimage_path = r'../data/train/ants_image/0013035.jpg'image_pil = Image.open(image_path)print(type(image_pil))# 实例化，并对图片进行转换tensor_train = transfor

2021-09-14 22:44:19 181

原创激活pytorch环境

1、背景接触pytorch不久，使用tensorboardX可视化时，需要激活pytorch环境，然而打开Anaconda Prompt，输入命令：conda activate pytorch时，却显示找不到pytorch，使用conda info --envs查看所有环境时，发现没有pytorch，可见我都没有创建这个环境，怎么可能被我激活。所以首先要创建pytorch，再使用激活函数激活。2、解决办法2.1 创建pytorch环境以管理员身份打开Anaconda Prompt，创建pytorch

2021-09-13 14:44:42 10513

原创斗地主随机分组

给我们工会主席写的小代码import pandas as pdimport randomimport os# 读取人员姓名ospath = os.getcwd()df = pd.read_excel(ospath + r'\人员.xlsx', header=None)total_people = df.shape[0]zu_ct = int(total_people / 3)print('玩家总人数为{}, 3人一组，共分{}组'.format(total_people, zu_ct))

2021-09-13 08:58:46 120

原创 pytorch实战-02 简单神经网络的搭建

代码如下from torchvision import datasetsfrom torch import nnfrom torch.nn import Conv2d, MaxPool2d, Flatten, Linear,Sequentialimport torch# from torch.util.tensorBoard import SummaryWriter# 搭建神经网络class Easy_Cnn(nn.Module): def __init__(self):

2021-09-02 12:53:54 85

原创 pytorch实战-01可视化 tensorboardX

代码如下form torch.util.tensorBoard import SummaryWriterfrom PIL import Image# 实例化writer = SummaryWriter('logs')# 添加图片img = Image.path(path)writer.add_image('name', y, x)# 添加标量writer.add_scaler()writer.close()打开事件文件tensorboard --logdir=logs...

2021-09-02 12:51:16 137

原创深度学习基础知识（学习笔记-李宏毅老师）

1、梯度下降深度学习的梯度下降与普通的机器学习相似，差别在于deep learning的参数是特别多的，使用反向传播机制（Backpropagation）计算梯度效率较高。2、激活函数常用的激活函数有sigmoid、Relu、Leaked_Relu、Maxout。3、...

2021-08-25 15:19:16 212

原创 python链接postgresql数据库

# -*- coding:utf-8 -*-# @time : 9:25# @Author:aaaaimport psycopg2import pandas as pddef getData(): # 链接数据库 conn = psycopg2.connect(database='postgres',user='postgres',password='postgres',host='localhost',port='5432') curs = conn.cursor()

2021-08-20 10:33:56 422

原创将excel中的多个sheet合并为一个sheet

比较简单，直接看代码。import pandas as pd# 获取所有的sheetreader = pd.ExcelFile(r'path')sheet_names = reader.sheet_names# 读取所有sheet的内容，并存入列表中content = []for i in sheet_names: print('正在读取sheet---{}'.format(i)) df = pd.read_excel(part,sheet_names=i) df = df.loc[

2021-08-19 16:13:28 1411

原创数据预处理

一、简介数据预处理的主要目的在于对数据进行清洗，以更好的用于后续建模分析。数据预处理一般包括：重复值处理、缺失值处理、异常值处理等。二、数据预处理前标签数据处理三、数据预处理过程及代码（一）重复值处理对于重复值数据，一般直接剔除重复值，仅保留一条数据。...

2021-08-18 12:33:41 1879

原创 lda模型理论篇

lda即隐含狄利克雷分布Latent Dirichlet Allocation, LDA）是常见的主题模型。lda是无监督的贝叶斯模型，主要用于文本聚类和降维，lda涉及的基础理论包括gamma分布、beta分布、共轭分布、多项分布、dirichlet分布、gibbs采样。除了吉布斯采样之外，其余基础知识见下图。gamma分布和beta分布共轭先验分布：二项分布的共轭分布为beta分布多项分布的共轭分布为dirichlet分布，何为伪计数？dirichlet分布及其期望对称diric

2021-08-15 23:14:12 400 2

原创多个csv文件合并

读取数据出错pd.read_csv(filepath)时报错:pandas.errors.ParserError: Error tokenizing data. C error: Expected 11 fields in line 5, saw 12翻译：5行应有11列而实际上读到12列,就会报错，解决办法方法一：如果不在乎数据量缺失，可加参数 error_bad_lines=False ，但样本会减少一部分（bad_lines），及读到12列的数据会丢失。方法二：强行设定数据列名，即加参数n

2021-08-12 15:22:24 491

原创 lda模型实战篇

lda简介（后期补全理论部分）1、lda是一种无监督的贝叶斯模型:P(词 | 文档)=P（词 | 主题）P（主题 | 文档）同一主题下，某个词出现的概率，以及同一文档下，某个主题出现的概率，两个概率的乘积，可以得到某篇文档出现某个词的概率。2、lda用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题分布后，便可以根据主题分布进行主题聚类或文本分类。3、lda 采用词袋模型。所谓词袋模型，是将一篇文档，我们仅考虑一个词汇是否出现，而不考虑

2021-08-10 15:37:48 2421

qq_36407774的博客