自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (11)
  • 收藏
  • 关注

原创 django配置多进程按日期分割处理日志

在settings中配置以下代码#LOGGING_DIR 日志文件存放目录LOGGING_DIR = "logs" # 日志存放路径if not os.path.exists(LOGGING_DIR): os.mkdir(LOGGING_DIR)import loggingLOGGING = { 'version': 1, 'disable_existing_loggers': False, 'formatters': { #格式化器 'standard':

2020-05-28 16:44:46 2115 5

原创 数据挖掘工具pandas(十三)对csv、excel、mysql读取和存储

一,pd对于csv文件的读取和存储1,pd读取csv文件df_xml = pd.read_csv("./outputs/"+table+".csv", engine='python', encoding='utf_8_sig')2,pd存储csv文件df.to_csv("./outputs/df_xml.csv", index=False, mode='w', header=True, encoding='utf_8_sig')二,pd对于excel文件的读取和存储1,pd读取excel

2020-05-27 18:48:10 485

原创 数据挖掘工具pandas(十二)交叉表和透视表

一,交叉表交叉表用于计算一列数据对于另外一列数据的分组个数(寻找两个列之间的关系) pandas.crosstab(value1,value2)import numpy as npimport pandas as pdnp.random.seed(2)day_data = np.random.normal(0,1,(500,507))# 构造行索引列表stock_list = ["股票"+ str(i) for i in range(day_data.shape[0])]# 构造列索引列

2020-05-27 17:56:24 283

原创 数据挖掘工具pandas(十一)数据合并

一,concat / join合并数据import pandas as pdimport numpy as npfrom matplotlib import pyplot as plt# 构造数据temp = pd.DataFrame(np.random.normal(0,100,(500,505)))stock_list = ["股票"+ str(i) for i in range(temp.shape[0])]date = ["第"+ str(i)+"天" for i in range(

2020-05-26 15:14:12 394

原创 数据挖掘工具pandas(十)离散化处理

一,什么是数据的离散化连续属性的离散化就是将连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值。二,qcut()import pandas as pdimport numpy as npfrom matplotlib import pyplot as plt# 构造数据temp = pd.DataFrame(np.random.normal(0,100,(500,505)))stock_list = ["股票"+ str(i) for i

2020-05-26 11:52:11 564

原创 数据挖掘工具pandas(九)Pandas缺失数据的处理

缺失数据处理的处理方式有两种:1)删除缺失值所在的行列2)填充数据,t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)一,删除缺失值所在的行列1,存在缺失值nan,并且是np.nanimport pandas as pdimport numpy as nptemp =pd.DataFrame(np.arange(12).reshape(3,4),index=list('abc'),columns=list("wxyz"))temp..

2020-05-25 18:20:03 290

原创 数据挖掘工具pandas(八)Pandas保存、读取外部数据

pandas保存、读取外部数据1,pandas保存、读取csv文件import numpy as npimport pandas as pdimport numpy as npnp.random.seed(4)day_data = np.random.normal(0,1,(500,507))day_data = np.round(day_data,1)stock_list = ["股票"+ str(i) for i in range(day_data.shape[0])]date = [

2020-05-25 18:12:09 465

原创 数据挖掘工具pandas(七)逻辑运算

1,使用逻辑运算符进行筛选(pandas的布尔索引)import pandas as pdfrom sqlalchemy import create_engineengine = create_engine('mysql+pymysql://root:root@localhost:3306/yoyo')sql = """select * from book_management_signin;"""df = pd.read_sql(sql,engine)print(df.describe()

2020-05-25 18:04:19 845

原创 数据挖掘工具pandas(六)Series

1.Series 一维,带标签数组2.DataFrame 二维,Series容器series和dataframe的区别: series只有行索引没有列索引。一,创建series类型的两种方式1,第一种创建series方式1)不指定索引import pandas as pdprint(pd.Series([1,2,3,4]))0 11 22 33 4dtype: int642)指定索引import pandas as pdimport numpy .

2020-05-25 16:22:39 245

原创 数据挖掘工具pandas(五)DataFrame的常用统计方法

一,单个函数max、min、idxmin、idxmax、mean、stdimport pandas as pdimport numpy as npday_data = np.random.normal(0,1,(500,507))stock_list = ["股票"+ str(i) for i in range(day_data.shape[0])]date = ["第"+ str(i)+"天" for i in range(day_data.shape[1])]df = pd.Data

2020-05-22 18:25:24 1962

原创 数据挖掘工具pandas(四)DataFrame的属性

一,DataFrame的基本属性:shape、dtypes、ndim、index、columns、values、Timport pandas as pdimport numpy as np# from sqlalchemy import create_engine# engine = create_engine('mysql+pymysql://root:root@localhost:3306/yoyo')# sql = """select * from role_info;"""# df

2020-05-22 18:10:26 1295

原创 数据挖掘工具pandas(三)DataFrame查看、修改数据

一,dataframe按索引查看数据1,使用行、列索引直接查看 (注意:先列后行!)import numpy as npimport pandas as pdnp.random.seed(2)day_data = np.random.normal(0,1,(500,507))# 构造行索引列表stock_list = ["股票"+ str(i) for i in range(day_data.shape[0])]# 构造列索引列表date = pd.date_range("2018-01-

2020-05-22 18:07:41 741

原创 数据挖掘工具pandas(二)DataFrame的索引

一,设置DataFrame索引值 以及 时间索引如何构造1,设置DataFrame索引值import numpy as npimport pandas as pdday_data = np.random.normal(0,1,(500,507))# 将数据变成dataframe格式day_data1 = pd.DataFrame(day_data)# 构造行索引列表stock_list = ["股票"+ str(i) for i in range(day_data.shape[0])]

2020-05-22 17:50:06 473

原创 数据挖掘工具pandas(一)Pandas的数据结构、dataFrame的三种创建方法

一,为什么使用pandaspandas的行、列索引更加灵活pandas处理缺失值优于numpy二,pandas的数据结构Series(一维数据)DataFrame(二维数据)panel(三维结构数据/面板数据)三,创建dataFrame第一种方法import pandas as pdimport numpy as npa = pd.DataFrame(np.arange(10).reshape(2,5))# index是行索引,columns是列索引b = pd.DataF

2020-05-22 15:32:58 401

原创 数据挖掘工具numpy(九)Nunpy中的nan和inf

一,nunpy中的nan和inf1,nan(not a number):表示不是一个数字当我们读取本地文件为float的时候,如果有缺失,就会出现nan;2,inf:表示正无穷,-inf表示负无穷当我们做了一个不合适的计算的时候,如无穷大减去无穷大。如一个数字除以0,(python会报错,numpy中是一个inf或者-inf)import numpy as npa = np.nanb = np.infprint(a,b,type(a),type(b))# ---------

2020-05-22 11:12:18 455

原创 数据挖掘工具numpy(八)Numpy从csv文件中读取数据

一,轴的概念可根据数组的shape属性返回的元组长度判断为几维数组一维数组: o轴(个数)二维数组: o轴(行),1轴(列)三维数组: o轴(块),1轴(行),2轴(列)二,numpy读取数组(一般不用,一般使用pandas从数据库、剪切板中读取)import numpy as npfile_dir = './number.csv'# file_dir表示文件位置;delimiter表示数据之间的间隔符;dtype表示数据类型;# unpack表示转置 按列数逐行的读取数据;t1

2020-05-22 11:04:16 2549

原创 数据挖掘工具numpy(七)Numpy数组的拼接、行列交换、转置

一,数组的拼接1,竖直拼接import numpy as npt1 = np.arange(30).reshape(6,5).astype(float)t2 = np.arange(30,60).reshape(6,5).astype(float)t1[:,3] = np.nant2[3,:] = np.nan# 竖直拼接t = np.vstack((t1,t2))print(t)2,水平拼接import numpy as npt1 = np.arange(30).reshap

2020-05-22 11:01:24 6720

原创 数据挖掘工具numpy(六)Numpy数组间运算

一,数组与数的计算# 数组与数进行计算是,数与数组的每一个数据分别进行计算。# 这是numpy的广播机制造成的,加减乘除的值被广播到所有元素上面。import numpy as nptemp = np.array([[1,2,3,4],[3,4,5,6],[7,8,9,0]],dtype='i4')temp1 = temp + 3temp2 = temp * 3print(temp,temp.shape,temp.ndim)print(temp1,temp1.shape,temp1.nd

2020-05-22 10:43:20 364

原创 数据挖掘工具numpy(五)Numpy数据统计运算

一,numpy中常用的统计函数import numpy as npa = np.arange(20).reshape(4,5).astype(float)a[2,3] = np.nanprint(a)# 按行求和# print(a.sum(axis=1))# 按行求均值# print(a.mean(axis=1))# 按行求中值# print(np.median(a,axis=1))# 按行求最大值# print(a.max(axis=1))# 按行求最小值# pri

2020-05-22 10:33:46 362

原创 数据挖掘工具numpy(四)Numpy数据筛选运算

一,numpy中数值的修改import numpy as nptemp = np.arange(30).reshape(6,5)print(temp)temp[:,1] = 0print(temp)# -------------output---------------------[[ 0 1 2 3 4] [ 5 6 7 8 9] [10 11 12 13 14] [15 16 17 18 19] [20 21 22 23 24] [25 26 27 28 29

2020-05-22 10:20:36 1050

原创 数据挖掘工具numpy(三)Numpy索引和切片

import numpy as npfile_dir = './number.csv'# file_dir表示文件位置;delimiter表示数据之间的间隔符;dtype表示数据类型;# unpack表示转置 按列数逐行的读取数据;t = np.loadtxt(file_dir,delimiter=',',dtype='int')t = print(t)print('-'*50)# 取出单行数据# print(t[2,:])# 取出连续多行数据# print(t[2:,:])

2020-05-22 10:03:58 257

原创 数据挖掘工具numpy(二)Numpy创建数组(随机数组)

一,从现有的数据创建数组1,使用arange创建import numpy as nptemp1 = np.arange(12,dtype=np.float32)temp2 = np.arange(3,12,dtype=np.float32)temp3 = temp1.reshape(3,4)print(temp1,temp1.dtype)print(temp3,temp3.dtype)# -----------output-----------------[ 0. 1. 2. 3.

2020-05-21 11:13:51 2963

原创 数据挖掘工具numpy(一)Numpy基本认识

一,Numpy的优势ndarray 对象由计算机内存中的一维连续区域组成,带有将每个元素映射到内存块中某个位置的索引方案。 内存块以按行(C风格)或按列(FORTRAN 或 MatLab 风格)的方式保存元素。1,Numpy的优势numpy的优势在运算速度快,是帮助处理数值型数据的,多用于大型、多维数组上的执行数值运算。numpy是以连续的内存形式进行存储的。内存有两种排列方式“c-type”(行排列)、“Fortran”(列排列)。numpy可以实行并行化运算,不仅使用c来实现,还使用了B

2020-05-20 10:28:50 859 2

原创 django多任务开启rabbitmq,并进行声明队列、发送、阻塞监听消息

一,

2020-05-19 16:46:50 3005 2

原创 python的重试模块retry、retrying

一,retry模块1,pip安装retry模块pip install retry2,retry介绍def retry(exceptions=Exception, tries=-1, delay=0, max_delay=None, backoff=1, jitter=0, logger=logging_logger): """Return a retry decorator. :param exceptions: an exception or a tuple of excepti

2020-05-18 17:23:55 6280

原创 python模块zipfile在linux环境中对文件压缩、解压

一,导入相关压缩模块import shutilimport zipfile二,对处理文件路径进行分割处理# 将包含文件名的绝对路径分割为:文件路径、文件名(filepath, tempfilename) = os.path.split(target_dir)# 将文件名分割为: 文件名(不包括后缀)、后缀名(docx_name, extension) = os.path.splitext(tempfilename)三,如果拷贝处理文件并更改修改其后缀名shutil.copyfile(t

2020-05-15 12:56:25 1088

原创 django提供下载服务;解决指定下载文件中文名不成功问题

file = open(target_dir , 'rb') response = FileResponse(file) file_name = name + '.' +doc_suffix response['Content-Type'] = 'application/octet-stream' logger.in...

2020-05-06 14:27:41 625

NLP - glue 数据集

NLP - glue 数据集

2022-04-12

ner_data.zip

对Bert模型的Ner任务提供了数据集demo

2021-09-18

BERT Pre-training of Deep Bidirectional Transformers for Language Understanding.

NLP-BERT模型论文

2021-06-24

TRANSFORMER.zip

NLP-TRANSFORMER模型论文

2021-06-24

tensorflow_datasets.zip

葡萄牙语和英语互翻数据

2021-06-21

ted_hrlr_translate.zip

pt_to_en葡萄语和英语互翻数据

2021-06-21

data_spa_en.zip

西班牙语和英语互翻数据

2021-06-17

shakespeare.zip

莎士比亚数据集

2021-06-16

cnn卷积神经网络论文.zip

cnn卷积神经网络的八篇最经典论文 AlexNet:NIPS-2012-imagenet-classification-with-deep-convolutional-neural-networks-Paper VGG:Very-Deep-Convolutional-Networks-for-Large-Scale-Image-Recognition NIN:network-in-network ResNet:Deep-Residual-Learning-for-Image-Recognition InceptionV1-V4 MobileNet:Efficient-ConVolutinal-Neural-Networks-for-Mobile-Vision NASNet:Learning-Transferable Architectures-for-Scalable-Image-Recognition ShakeShake:Shake-Shake-regularization

2021-03-01

ltp_data_v3.4.0.zip

LTP数据模型提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。从应用角度来看,LTP为用户提供了下列组件: 针对单一自然语言处理任务,生成统计机器学习模型的工具 针对单一自然语言处理任务,调用模型进行分析的编程接口 使用流水线方式将各个分析工具结合起来,形成一套统一的中文自然语言处理系统\ 系统可调用的,用于中文语言处理的模型文件 针对单一自然语言处理任务,基于云端的编程接口

2020-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除