自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 linux常用操作

上述的j为通过bzip2压缩或解压缩,可以改为z通过gzip,文件后缀为tar.gz;账号相关信息在/etc/passwd,个人密码记录在/etc/shadow,所有组名记录在/etc/group里。2、bzip2比gzip更佳,但时间一般更久,用法与gzip一致。3、xz比bzip2更佳,但时间一般更久,用法与gzip一致。-c 将压缩的数据输出到屏幕上,可通过数据流重定向来处理。*.tar tar程序打包的文件,并没有压缩过。-# 压缩等级,-1最快,-9最慢,默认-6。

2023-10-10 14:09:09 58

原创 PYTHON常用函数

5、random_state 可选参数,控制随机状态,默认为 None,表示随机数据不会重复;对一维数组随机排序:a=np.random.permutation([0,1,2,3,4,5,6,7,8,9])3、replace:布尔值参数,表示是否以有放回抽样的方式进行选择,默认为 False,取出数据后不再放回。6、axis 表示在哪个方向上抽取数据(axis=1 表示列/axis=0 表示行)。2、frac:表示抽取的比例,比如 frac=0.5,代表抽取总体数据的50%。1、n:表示要抽取的行数。

2023-07-28 10:18:44 91

原创 Excel常规函数,你值得拥有

1、发现重复项countifCOUNTIF对区域中满足单个指定条件的单元格进行计数=COUNTIF(A:A,A2)=COUNTIF(A$2:A2,A2)2、if函数执行真假值判断,根据逻辑计算的真假值,返回结果=IF(COUNTIF(B3:H3,"<>0")>3,"错误","正确")3、or、and=OR(A2=1,A2=2)=FALSE=AND(A2=1,A2=2)=FALSE4、字段合并concattext(A2,“0%”),可恢复原数字格式=CONCAT

2022-05-18 09:07:58 204

原创 pandas形成字典

value为一 个字段df.groupby(‘key’)[‘value’].apply(list).to_dict()标题df_dict = df.to_dict(orient='records')for i in range(len(df_dict)): values = list() for k, v in df_dict[i].items(): values.append(v)

2022-02-18 17:50:03 650

原创 正则表达式

标题ub批量替换re.sub('.*医院', '医院', text)选择第一个数字之前的内容re.split('[0-9]', text)[0]

2022-02-18 16:40:08 149

原创 统计数据有值率

统计表格里所有字典的有值率,仅需三条简简单单的语句df_result = (pd.DataFrame((df.isnull()).sum()/df.shape[0]).reset_index())df_result.columns=['字段名称','缺失率']df_result['有值率'] = 1-df_result['缺失率']

2021-12-28 10:47:08 587

原创 pandas基本操作

1、删除某一列df_color = df_color.drop(‘12345颜’,axis=1)2、使用merge,根据多个条件进行合并df_taskinfo_color = df_taskinfo.merge(df_color,how=‘left’,on=[‘a’,‘b’,‘c’,‘d’])3、读取文件时只选择某几列data = pd.read_csv(‘data.csv’,usecols=[0,1,2])更改某列的名称df_find = pd.concat([df_find1,df_fin

2021-10-26 18:42:10 576

原创 jupyter notebook快捷键

来源于:链接: https://blog.csdn.net/QimaoRyan/article/details/76022038#23%E7%BC%96%E8%BE%91%E6%A8%A1%E5%BC%8F%E5%BF%AB%E6%8D%B7%E9%94%AE.1.Jupyter Notebook服务启动与停止环境为Windows10系统首先进入命令提示符cmd,用cd命令切换到工作目录,这里不做详细解释,可自行百度键入命令jupyter notebook之后Jupyter Notebook服务就

2021-10-07 17:55:38 95

原创 pytorch实战-03图像处理

1、常用方法1.1 transforms将图像的数据类型转为tensor,方便后续的训练。from torchvision import transformsfrom PIL import Imageimage_path = r'../data/train/ants_image/0013035.jpg'image_pil = Image.open(image_path)print(type(image_pil))# 实例化,并对图片进行转换tensor_train = transfor

2021-09-14 22:44:19 181

原创 激活pytorch环境

1、背景接触pytorch不久,使用tensorboardX可视化时,需要激活pytorch环境,然而打开Anaconda Prompt,输入命令:conda activate pytorch时,却显示找不到pytorch,使用conda info --envs查看所有环境时,发现没有pytorch,可见我都没有创建这个环境,怎么可能被我激活。所以首先要创建pytorch,再使用激活函数激活。2、解决办法2.1 创建pytorch环境以管理员身份打开Anaconda Prompt,创建pytorch

2021-09-13 14:44:42 10513

原创 斗地主随机分组

给我们工会主席写的小代码import pandas as pdimport randomimport os# 读取人员姓名ospath = os.getcwd()df = pd.read_excel(ospath + r'\人员.xlsx', header=None)total_people = df.shape[0]zu_ct = int(total_people / 3)print('玩家总人数为{}, 3人一组,共分{}组'.format(total_people, zu_ct))

2021-09-13 08:58:46 120

原创 pytorch实战-02 简单神经网络的搭建

代码如下from torchvision import datasetsfrom torch import nnfrom torch.nn import Conv2d, MaxPool2d, Flatten, Linear,Sequentialimport torch# from torch.util.tensorBoard import SummaryWriter# 搭建神经网络class Easy_Cnn(nn.Module): def __init__(self):

2021-09-02 12:53:54 85

原创 pytorch实战-01可视化 tensorboardX

代码如下form torch.util.tensorBoard import SummaryWriterfrom PIL import Image# 实例化writer = SummaryWriter('logs')# 添加图片img = Image.path(path)writer.add_image('name', y, x)# 添加标量writer.add_scaler()writer.close()打开事件文件tensorboard --logdir=logs...

2021-09-02 12:51:16 137

原创 深度学习基础知识(学习笔记-李宏毅老师)

1、梯度下降深度学习的梯度下降与普通的机器学习相似,差别在于deep learning的参数是特别多的,使用反向传播机制(Backpropagation)计算梯度效率较高。2、激活函数常用的激活函数有sigmoid、Relu、Leaked_Relu、Maxout。3、...

2021-08-25 15:19:16 212

原创 python链接postgresql数据库

# -*- coding:utf-8 -*-# @time : 9:25# @Author:aaaaimport psycopg2import pandas as pddef getData(): # 链接数据库 conn = psycopg2.connect(database='postgres',user='postgres',password='postgres',host='localhost',port='5432') curs = conn.cursor()

2021-08-20 10:33:56 422

原创 将excel中的多个sheet合并为一个sheet

比较简单,直接看代码。import pandas as pd# 获取所有的sheetreader = pd.ExcelFile(r'path')sheet_names = reader.sheet_names# 读取所有sheet的内容,并存入列表中content = []for i in sheet_names: print('正在读取sheet---{}'.format(i)) df = pd.read_excel(part,sheet_names=i) df = df.loc[

2021-08-19 16:13:28 1411

原创 数据预处理

一、简介数据预处理的主要目的在于对数据进行清洗,以更好的用于后续建模分析。数据预处理一般包括:重复值处理、缺失值处理、异常值处理等。二、数据预处理前标签数据处理三、数据预处理过程及代码(一)重复值处理对于重复值数据,一般直接剔除重复值,仅保留一条数据。...

2021-08-18 12:33:41 1879

原创 lda模型理论篇

lda即隐含狄利克雷分布Latent Dirichlet Allocation, LDA)是常见的主题模型。lda是无监督的贝叶斯模型,主要用于文本聚类和降维,lda涉及的基础理论包括gamma分布、beta分布、共轭分布、多项分布、dirichlet分布、gibbs采样。除了吉布斯采样之外,其余基础知识见下图。gamma分布和beta分布共轭先验分布:二项分布的共轭分布为beta分布多项分布的共轭分布为dirichlet分布,何为伪计数?dirichlet分布及其期望对称diric

2021-08-15 23:14:12 400 2

原创 多个csv文件合并

读取数据出错pd.read_csv(filepath)时报错:pandas.errors.ParserError: Error tokenizing data. C error: Expected 11 fields in line 5, saw 12翻译:5行应有11列而实际上读到12列,就会报错,解决办法方法一:如果不在乎数据量缺失,可加参数 error_bad_lines=False ,但样本会减少一部分(bad_lines),及读到12列的数据会丢失。方法二:强行设定数据列名,即加参数n

2021-08-12 15:22:24 491

原创 lda模型实战篇

lda简介(后期补全理论部分)1、lda是一种无监督的贝叶斯模型:P(词 | 文档)=P(词 | 主题)P(主题 | 文档)同一主题下,某个词出现的概率,以及同一文档下,某个主题出现的概率,两个概率的乘积,可以得到某篇文档出现某个词的概率。2、lda用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。3、lda 采用词袋模型。所谓词袋模型,是将一篇文档,我们仅考虑一个词汇是否出现,而不考虑

2021-08-10 15:37:48 2421

原创 文本相似度计算(切词、生成词向量,使用余弦相似度计算)

项目需求有多个文本,分别是正负样本,使用余弦相似度计算负样本与正样本的样本相似度,若准确率高,后期可判断新加样本与正样本的相似度。输入如下所示(存入txt):content label今天下午,在龙口市诸由观镇涧村张常鸿家的大院里。 1呼啦呼啦,巴拉巴拉小魔仙 1张常鸿的爸爸张振俭告诉记者,从4月份以后就再没有见到张常鸿了。 0张常鸿2000年2月14日出生于山东烟台龙口市。 0大家好 0在上午举行的资格赛中,选手将以跪射、卧射和立射三个姿势各打40发。 0呼啦呼啦,巴拉巴拉小魔仙 0

2021-08-03 15:52:58 1097

原创 pip详解

安装包pip install 包名若出错,则pip install pyinstaller-i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com卸载包pip uninstall 包名

2021-07-27 15:48:33 197

原创 xgboost学习笔记

分四步整理

2021-07-27 12:52:31 48

原创 python脚本形成小工具

下载所需的安装包pip install pyinstaller若安装不成功,使用pip install pyinstaller-i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com形成小工具如下述将代码形成小工具,step1:打开cmd ,并cd至小工具存放目录,step2:执行下述脚本:pyinstaller.exe -F D:\pycharm_workspace\xxma\爬虫\多线程爬网页标题

2021-07-27 09:40:39 238

原创 提取文本中的host

提取文本中的hostimport reimport osimport timedef exract_host(text): """ 提取host :param text: 需提取host的字段 :return: """ pattern = r'[a-zA-Z0-9.]+[\-]*[a-zA-Z0-9.]+' try: result = re.findall(pattern, content) except:

2021-07-22 12:06:36 236

原创 多线程爬取网页标题

多线程爬取网页标题import requestsfrom bs4 import BeautifulSoupimport concurrent.futuresimport pandas as pdimport time# 爬取网站def craw(host): try: r = requests.get('http://' + host, timeout=10) # print('http://{}---state----{}'.format(hos

2021-07-22 11:59:41 147

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除