- 博客(26)
- 收藏
- 关注
原创 linux常用操作
上述的j为通过bzip2压缩或解压缩,可以改为z通过gzip,文件后缀为tar.gz;账号相关信息在/etc/passwd,个人密码记录在/etc/shadow,所有组名记录在/etc/group里。2、bzip2比gzip更佳,但时间一般更久,用法与gzip一致。3、xz比bzip2更佳,但时间一般更久,用法与gzip一致。-c 将压缩的数据输出到屏幕上,可通过数据流重定向来处理。*.tar tar程序打包的文件,并没有压缩过。-# 压缩等级,-1最快,-9最慢,默认-6。
2023-10-10 14:09:09
58
原创 PYTHON常用函数
5、random_state 可选参数,控制随机状态,默认为 None,表示随机数据不会重复;对一维数组随机排序:a=np.random.permutation([0,1,2,3,4,5,6,7,8,9])3、replace:布尔值参数,表示是否以有放回抽样的方式进行选择,默认为 False,取出数据后不再放回。6、axis 表示在哪个方向上抽取数据(axis=1 表示列/axis=0 表示行)。2、frac:表示抽取的比例,比如 frac=0.5,代表抽取总体数据的50%。1、n:表示要抽取的行数。
2023-07-28 10:18:44
91
原创 Excel常规函数,你值得拥有
1、发现重复项countifCOUNTIF对区域中满足单个指定条件的单元格进行计数=COUNTIF(A:A,A2)=COUNTIF(A$2:A2,A2)2、if函数执行真假值判断,根据逻辑计算的真假值,返回结果=IF(COUNTIF(B3:H3,"<>0")>3,"错误","正确")3、or、and=OR(A2=1,A2=2)=FALSE=AND(A2=1,A2=2)=FALSE4、字段合并concattext(A2,“0%”),可恢复原数字格式=CONCAT
2022-05-18 09:07:58
204
原创 pandas形成字典
value为一 个字段df.groupby(‘key’)[‘value’].apply(list).to_dict()标题df_dict = df.to_dict(orient='records')for i in range(len(df_dict)): values = list() for k, v in df_dict[i].items(): values.append(v)
2022-02-18 17:50:03
650
原创 正则表达式
标题ub批量替换re.sub('.*医院', '医院', text)选择第一个数字之前的内容re.split('[0-9]', text)[0]
2022-02-18 16:40:08
149
原创 统计数据有值率
统计表格里所有字典的有值率,仅需三条简简单单的语句df_result = (pd.DataFrame((df.isnull()).sum()/df.shape[0]).reset_index())df_result.columns=['字段名称','缺失率']df_result['有值率'] = 1-df_result['缺失率']
2021-12-28 10:47:08
587
原创 pandas基本操作
1、删除某一列df_color = df_color.drop(‘12345颜’,axis=1)2、使用merge,根据多个条件进行合并df_taskinfo_color = df_taskinfo.merge(df_color,how=‘left’,on=[‘a’,‘b’,‘c’,‘d’])3、读取文件时只选择某几列data = pd.read_csv(‘data.csv’,usecols=[0,1,2])更改某列的名称df_find = pd.concat([df_find1,df_fin
2021-10-26 18:42:10
576
原创 jupyter notebook快捷键
来源于:链接: https://blog.csdn.net/QimaoRyan/article/details/76022038#23%E7%BC%96%E8%BE%91%E6%A8%A1%E5%BC%8F%E5%BF%AB%E6%8D%B7%E9%94%AE.1.Jupyter Notebook服务启动与停止环境为Windows10系统首先进入命令提示符cmd,用cd命令切换到工作目录,这里不做详细解释,可自行百度键入命令jupyter notebook之后Jupyter Notebook服务就
2021-10-07 17:55:38
95
原创 pytorch实战-03图像处理
1、常用方法1.1 transforms将图像的数据类型转为tensor,方便后续的训练。from torchvision import transformsfrom PIL import Imageimage_path = r'../data/train/ants_image/0013035.jpg'image_pil = Image.open(image_path)print(type(image_pil))# 实例化,并对图片进行转换tensor_train = transfor
2021-09-14 22:44:19
181
原创 激活pytorch环境
1、背景接触pytorch不久,使用tensorboardX可视化时,需要激活pytorch环境,然而打开Anaconda Prompt,输入命令:conda activate pytorch时,却显示找不到pytorch,使用conda info --envs查看所有环境时,发现没有pytorch,可见我都没有创建这个环境,怎么可能被我激活。所以首先要创建pytorch,再使用激活函数激活。2、解决办法2.1 创建pytorch环境以管理员身份打开Anaconda Prompt,创建pytorch
2021-09-13 14:44:42
10513
原创 斗地主随机分组
给我们工会主席写的小代码import pandas as pdimport randomimport os# 读取人员姓名ospath = os.getcwd()df = pd.read_excel(ospath + r'\人员.xlsx', header=None)total_people = df.shape[0]zu_ct = int(total_people / 3)print('玩家总人数为{}, 3人一组,共分{}组'.format(total_people, zu_ct))
2021-09-13 08:58:46
120
原创 pytorch实战-02 简单神经网络的搭建
代码如下from torchvision import datasetsfrom torch import nnfrom torch.nn import Conv2d, MaxPool2d, Flatten, Linear,Sequentialimport torch# from torch.util.tensorBoard import SummaryWriter# 搭建神经网络class Easy_Cnn(nn.Module): def __init__(self):
2021-09-02 12:53:54
85
原创 pytorch实战-01可视化 tensorboardX
代码如下form torch.util.tensorBoard import SummaryWriterfrom PIL import Image# 实例化writer = SummaryWriter('logs')# 添加图片img = Image.path(path)writer.add_image('name', y, x)# 添加标量writer.add_scaler()writer.close()打开事件文件tensorboard --logdir=logs...
2021-09-02 12:51:16
137
原创 深度学习基础知识(学习笔记-李宏毅老师)
1、梯度下降深度学习的梯度下降与普通的机器学习相似,差别在于deep learning的参数是特别多的,使用反向传播机制(Backpropagation)计算梯度效率较高。2、激活函数常用的激活函数有sigmoid、Relu、Leaked_Relu、Maxout。3、...
2021-08-25 15:19:16
212
原创 python链接postgresql数据库
# -*- coding:utf-8 -*-# @time : 9:25# @Author:aaaaimport psycopg2import pandas as pddef getData(): # 链接数据库 conn = psycopg2.connect(database='postgres',user='postgres',password='postgres',host='localhost',port='5432') curs = conn.cursor()
2021-08-20 10:33:56
422
原创 将excel中的多个sheet合并为一个sheet
比较简单,直接看代码。import pandas as pd# 获取所有的sheetreader = pd.ExcelFile(r'path')sheet_names = reader.sheet_names# 读取所有sheet的内容,并存入列表中content = []for i in sheet_names: print('正在读取sheet---{}'.format(i)) df = pd.read_excel(part,sheet_names=i) df = df.loc[
2021-08-19 16:13:28
1411
原创 数据预处理
一、简介数据预处理的主要目的在于对数据进行清洗,以更好的用于后续建模分析。数据预处理一般包括:重复值处理、缺失值处理、异常值处理等。二、数据预处理前标签数据处理三、数据预处理过程及代码(一)重复值处理对于重复值数据,一般直接剔除重复值,仅保留一条数据。...
2021-08-18 12:33:41
1879
原创 lda模型理论篇
lda即隐含狄利克雷分布Latent Dirichlet Allocation, LDA)是常见的主题模型。lda是无监督的贝叶斯模型,主要用于文本聚类和降维,lda涉及的基础理论包括gamma分布、beta分布、共轭分布、多项分布、dirichlet分布、gibbs采样。除了吉布斯采样之外,其余基础知识见下图。gamma分布和beta分布共轭先验分布:二项分布的共轭分布为beta分布多项分布的共轭分布为dirichlet分布,何为伪计数?dirichlet分布及其期望对称diric
2021-08-15 23:14:12
400
2
原创 多个csv文件合并
读取数据出错pd.read_csv(filepath)时报错:pandas.errors.ParserError: Error tokenizing data. C error: Expected 11 fields in line 5, saw 12翻译:5行应有11列而实际上读到12列,就会报错,解决办法方法一:如果不在乎数据量缺失,可加参数 error_bad_lines=False ,但样本会减少一部分(bad_lines),及读到12列的数据会丢失。方法二:强行设定数据列名,即加参数n
2021-08-12 15:22:24
491
原创 lda模型实战篇
lda简介(后期补全理论部分)1、lda是一种无监督的贝叶斯模型:P(词 | 文档)=P(词 | 主题)P(主题 | 文档)同一主题下,某个词出现的概率,以及同一文档下,某个主题出现的概率,两个概率的乘积,可以得到某篇文档出现某个词的概率。2、lda用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。3、lda 采用词袋模型。所谓词袋模型,是将一篇文档,我们仅考虑一个词汇是否出现,而不考虑
2021-08-10 15:37:48
2421
原创 文本相似度计算(切词、生成词向量,使用余弦相似度计算)
项目需求有多个文本,分别是正负样本,使用余弦相似度计算负样本与正样本的样本相似度,若准确率高,后期可判断新加样本与正样本的相似度。输入如下所示(存入txt):content label今天下午,在龙口市诸由观镇涧村张常鸿家的大院里。 1呼啦呼啦,巴拉巴拉小魔仙 1张常鸿的爸爸张振俭告诉记者,从4月份以后就再没有见到张常鸿了。 0张常鸿2000年2月14日出生于山东烟台龙口市。 0大家好 0在上午举行的资格赛中,选手将以跪射、卧射和立射三个姿势各打40发。 0呼啦呼啦,巴拉巴拉小魔仙 0
2021-08-03 15:52:58
1097
原创 pip详解
安装包pip install 包名若出错,则pip install pyinstaller-i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com卸载包pip uninstall 包名
2021-07-27 15:48:33
197
原创 python脚本形成小工具
下载所需的安装包pip install pyinstaller若安装不成功,使用pip install pyinstaller-i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com形成小工具如下述将代码形成小工具,step1:打开cmd ,并cd至小工具存放目录,step2:执行下述脚本:pyinstaller.exe -F D:\pycharm_workspace\xxma\爬虫\多线程爬网页标题
2021-07-27 09:40:39
238
原创 提取文本中的host
提取文本中的hostimport reimport osimport timedef exract_host(text): """ 提取host :param text: 需提取host的字段 :return: """ pattern = r'[a-zA-Z0-9.]+[\-]*[a-zA-Z0-9.]+' try: result = re.findall(pattern, content) except:
2021-07-22 12:06:36
236
原创 多线程爬取网页标题
多线程爬取网页标题import requestsfrom bs4 import BeautifulSoupimport concurrent.futuresimport pandas as pdimport time# 爬取网站def craw(host): try: r = requests.get('http://' + host, timeout=10) # print('http://{}---state----{}'.format(hos
2021-07-22 11:59:41
147
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人