2020年05月_TFATS

12月 11月 10月 09月 08月 07月 06月 05月 03月 02月 01月

原创 django配置多进程按日期分割处理日志

在settings中配置以下代码#LOGGING_DIR 日志文件存放目录LOGGING_DIR = "logs" # 日志存放路径if not os.path.exists(LOGGING_DIR): os.mkdir(LOGGING_DIR)import loggingLOGGING = { 'version': 1, 'disable_existing_loggers': False, 'formatters': { #格式化器 'standard':

2020-05-28 16:44:46 2115 5

原创数据挖掘工具pandas（十三）对csv、excel、mysql读取和存储

一，pd对于csv文件的读取和存储1，pd读取csv文件df_xml = pd.read_csv("./outputs/"+table+".csv", engine='python', encoding='utf_8_sig')2，pd存储csv文件df.to_csv("./outputs/df_xml.csv", index=False, mode='w', header=True, encoding='utf_8_sig')二，pd对于excel文件的读取和存储1，pd读取excel

2020-05-27 18:48:10 485

原创数据挖掘工具pandas（十二）交叉表和透视表

一，交叉表交叉表用于计算一列数据对于另外一列数据的分组个数（寻找两个列之间的关系） pandas.crosstab(value1,value2)import numpy as npimport pandas as pdnp.random.seed(2)day_data = np.random.normal(0,1,(500,507))# 构造行索引列表stock_list = ["股票"+ str(i) for i in range(day_data.shape[0])]# 构造列索引列

2020-05-27 17:56:24 283

原创数据挖掘工具pandas（十一）数据合并

一，concat / join合并数据import pandas as pdimport numpy as npfrom matplotlib import pyplot as plt# 构造数据temp = pd.DataFrame(np.random.normal(0,100,(500,505)))stock_list = ["股票"+ str(i) for i in range(temp.shape[0])]date = ["第"+ str(i)+"天" for i in range(

2020-05-26 15:14:12 394

原创数据挖掘工具pandas（十）离散化处理

一，什么是数据的离散化连续属性的离散化就是将连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间中的属性值。二，qcut()import pandas as pdimport numpy as npfrom matplotlib import pyplot as plt# 构造数据temp = pd.DataFrame(np.random.normal(0,100,(500,505)))stock_list = ["股票"+ str(i) for i

2020-05-26 11:52:11 564

原创数据挖掘工具pandas（九）Pandas缺失数据的处理

缺失数据处理的处理方式有两种：1）删除缺失值所在的行列2）填充数据，t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)一，删除缺失值所在的行列1，存在缺失值nan，并且是np.nanimport pandas as pdimport numpy as nptemp =pd.DataFrame(np.arange(12).reshape(3,4),index=list('abc'),columns=list("wxyz"))temp..

2020-05-25 18:20:03 290

原创数据挖掘工具pandas（八）Pandas保存、读取外部数据

pandas保存、读取外部数据1，pandas保存、读取csv文件import numpy as npimport pandas as pdimport numpy as npnp.random.seed(4)day_data = np.random.normal(0,1,(500,507))day_data = np.round(day_data,1)stock_list = ["股票"+ str(i) for i in range(day_data.shape[0])]date = [

2020-05-25 18:12:09 465

原创数据挖掘工具pandas（七）逻辑运算

1，使用逻辑运算符进行筛选（pandas的布尔索引）import pandas as pdfrom sqlalchemy import create_engineengine = create_engine('mysql+pymysql://root:root@localhost:3306/yoyo')sql = """select * from book_management_signin;"""df = pd.read_sql(sql,engine)print(df.describe()

2020-05-25 18:04:19 845

原创数据挖掘工具pandas（六）Series

1.Series 一维,带标签数组2.DataFrame 二维，Series容器series和dataframe的区别： series只有行索引没有列索引。一，创建series类型的两种方式1，第一种创建series方式1）不指定索引import pandas as pdprint(pd.Series([1,2,3,4]))0 11 22 33 4dtype: int642）指定索引import pandas as pdimport numpy .

2020-05-25 16:22:39 245

原创数据挖掘工具pandas（五）DataFrame的常用统计方法

一，单个函数max、min、idxmin、idxmax、mean、stdimport pandas as pdimport numpy as npday_data = np.random.normal(0,1,(500,507))stock_list = ["股票"+ str(i) for i in range(day_data.shape[0])]date = ["第"+ str(i)+"天" for i in range(day_data.shape[1])]df = pd.Data

2020-05-22 18:25:24 1962

原创数据挖掘工具pandas（四）DataFrame的属性

一，DataFrame的基本属性：shape、dtypes、ndim、index、columns、values、Timport pandas as pdimport numpy as np# from sqlalchemy import create_engine# engine = create_engine('mysql+pymysql://root:root@localhost:3306/yoyo')# sql = """select * from role_info;"""# df

2020-05-22 18:10:26 1295

原创数据挖掘工具pandas（三）DataFrame查看、修改数据

一，dataframe按索引查看数据1，使用行、列索引直接查看 (注意：先列后行！)import numpy as npimport pandas as pdnp.random.seed(2)day_data = np.random.normal(0,1,(500,507))# 构造行索引列表stock_list = ["股票"+ str(i) for i in range(day_data.shape[0])]# 构造列索引列表date = pd.date_range("2018-01-

2020-05-22 18:07:41 741

原创数据挖掘工具pandas（二）DataFrame的索引

一，设置DataFrame索引值以及时间索引如何构造1，设置DataFrame索引值import numpy as npimport pandas as pdday_data = np.random.normal(0,1,(500,507))# 将数据变成dataframe格式day_data1 = pd.DataFrame(day_data)# 构造行索引列表stock_list = ["股票"+ str(i) for i in range(day_data.shape[0])]

2020-05-22 17:50:06 473

原创数据挖掘工具pandas（一）Pandas的数据结构、dataFrame的三种创建方法

一，为什么使用pandaspandas的行、列索引更加灵活pandas处理缺失值优于numpy二，pandas的数据结构Series(一维数据)DataFrame(二维数据)panel(三维结构数据/面板数据)三，创建dataFrame第一种方法import pandas as pdimport numpy as npa = pd.DataFrame(np.arange(10).reshape(2,5))# index是行索引，columns是列索引b = pd.DataF

2020-05-22 15:32:58 401

原创数据挖掘工具numpy（九）Nunpy中的nan和inf

一，nunpy中的nan和inf1，nan（not a number）:表示不是一个数字当我们读取本地文件为float的时候，如果有缺失，就会出现nan；2，inf:表示正无穷，-inf表示负无穷当我们做了一个不合适的计算的时候，如无穷大减去无穷大。如一个数字除以0，（python会报错，numpy中是一个inf或者-inf）import numpy as npa = np.nanb = np.infprint(a,b,type(a),type(b))# ---------

2020-05-22 11:12:18 455

原创数据挖掘工具numpy（八）Numpy从csv文件中读取数据

一，轴的概念可根据数组的shape属性返回的元组长度判断为几维数组一维数组： o轴（个数）二维数组： o轴（行），1轴（列）三维数组： o轴（块），1轴（行），2轴（列）二，numpy读取数组（一般不用，一般使用pandas从数据库、剪切板中读取）import numpy as npfile_dir = './number.csv'# file_dir表示文件位置；delimiter表示数据之间的间隔符；dtype表示数据类型；# unpack表示转置按列数逐行的读取数据；t1

2020-05-22 11:04:16 2549

原创数据挖掘工具numpy（七）Numpy数组的拼接、行列交换、转置

一，数组的拼接1，竖直拼接import numpy as npt1 = np.arange(30).reshape(6,5).astype(float)t2 = np.arange(30,60).reshape(6,5).astype(float)t1[:,3] = np.nant2[3,:] = np.nan# 竖直拼接t = np.vstack((t1,t2))print(t)2，水平拼接import numpy as npt1 = np.arange(30).reshap

2020-05-22 11:01:24 6720

原创数据挖掘工具numpy（六）Numpy数组间运算

一，数组与数的计算# 数组与数进行计算是，数与数组的每一个数据分别进行计算。# 这是numpy的广播机制造成的，加减乘除的值被广播到所有元素上面。import numpy as nptemp = np.array([[1,2,3,4],[3,4,5,6],[7,8,9,0]],dtype='i4')temp1 = temp + 3temp2 = temp * 3print(temp,temp.shape,temp.ndim)print(temp1,temp1.shape,temp1.nd

2020-05-22 10:43:20 364

原创数据挖掘工具numpy（五）Numpy数据统计运算

一，numpy中常用的统计函数import numpy as npa = np.arange(20).reshape(4,5).astype(float)a[2,3] = np.nanprint(a)# 按行求和# print(a.sum(axis=1))# 按行求均值# print(a.mean(axis=1))# 按行求中值# print(np.median(a,axis=1))# 按行求最大值# print(a.max(axis=1))# 按行求最小值# pri

2020-05-22 10:33:46 362

原创数据挖掘工具numpy（四）Numpy数据筛选运算

一，numpy中数值的修改import numpy as nptemp = np.arange(30).reshape(6,5)print(temp)temp[:,1] = 0print(temp)# -------------output---------------------[[ 0 1 2 3 4] [ 5 6 7 8 9] [10 11 12 13 14] [15 16 17 18 19] [20 21 22 23 24] [25 26 27 28 29

2020-05-22 10:20:36 1050

原创数据挖掘工具numpy（三）Numpy索引和切片

import numpy as npfile_dir = './number.csv'# file_dir表示文件位置；delimiter表示数据之间的间隔符；dtype表示数据类型；# unpack表示转置按列数逐行的读取数据；t = np.loadtxt(file_dir,delimiter=',',dtype='int')t = print(t)print('-'*50)# 取出单行数据# print(t[2,:])# 取出连续多行数据# print(t[2:,:])

2020-05-22 10:03:58 257

原创数据挖掘工具numpy（二）Numpy创建数组(随机数组)

一，从现有的数据创建数组1，使用arange创建import numpy as nptemp1 = np.arange(12,dtype=np.float32)temp2 = np.arange(3,12,dtype=np.float32)temp3 = temp1.reshape(3,4)print(temp1,temp1.dtype)print(temp3,temp3.dtype)# -----------output-----------------[ 0. 1. 2. 3.

2020-05-21 11:13:51 2963

原创数据挖掘工具numpy（一）Numpy基本认识

一，Numpy的优势ndarray 对象由计算机内存中的一维连续区域组成，带有将每个元素映射到内存块中某个位置的索引方案。内存块以按行（C风格）或按列（FORTRAN 或 MatLab 风格）的方式保存元素。1，Numpy的优势numpy的优势在运算速度快，是帮助处理数值型数据的，多用于大型、多维数组上的执行数值运算。numpy是以连续的内存形式进行存储的。内存有两种排列方式“c-type”(行排列)、“Fortran”(列排列)。numpy可以实行并行化运算，不仅使用c来实现，还使用了B

2020-05-20 10:28:50 859 2

原创 django多任务开启rabbitmq，并进行声明队列、发送、阻塞监听消息

一，

2020-05-19 16:46:50 3005 2

原创 python的重试模块retry、retrying

一，retry模块1，pip安装retry模块pip install retry2，retry介绍def retry(exceptions=Exception, tries=-1, delay=0, max_delay=None, backoff=1, jitter=0, logger=logging_logger): """Return a retry decorator. :param exceptions: an exception or a tuple of excepti

2020-05-18 17:23:55 6280

原创 python模块zipfile在linux环境中对文件压缩、解压

一，导入相关压缩模块import shutilimport zipfile二，对处理文件路径进行分割处理# 将包含文件名的绝对路径分割为：文件路径、文件名(filepath, tempfilename) = os.path.split(target_dir)# 将文件名分割为：文件名（不包括后缀）、后缀名(docx_name, extension) = os.path.splitext(tempfilename)三，如果拷贝处理文件并更改修改其后缀名shutil.copyfile(t

2020-05-15 12:56:25 1088

原创 django提供下载服务；解决指定下载文件中文名不成功问题

file = open(target_dir , 'rb') response = FileResponse(file) file_name = name + '.' +doc_suffix response['Content-Type'] = 'application/octet-stream' logger.in...

2020-05-06 14:27:41 625

NLP - glue 数据集

2022-04-12

ner_data.zip

对Bert模型的Ner任务提供了数据集demo

2021-09-18

BERT Pre-training of Deep Bidirectional Transformers for Language Understanding.

NLP-BERT模型论文

2021-06-24

TRANSFORMER.zip

NLP-TRANSFORMER模型论文

2021-06-24

tensorflow_datasets.zip

葡萄牙语和英语互翻数据

2021-06-21

ted_hrlr_translate.zip

pt_to_en葡萄语和英语互翻数据

2021-06-21

data_spa_en.zip

西班牙语和英语互翻数据

2021-06-17

shakespeare.zip

莎士比亚数据集

2021-06-16

cnn卷积神经网络论文.zip

cnn卷积神经网络的八篇最经典论文 AlexNet：NIPS-2012-imagenet-classification-with-deep-convolutional-neural-networks-Paper VGG：Very-Deep-Convolutional-Networks-for-Large-Scale-Image-Recognition NIN：network-in-network ResNet：Deep-Residual-Learning-for-Image-Recognition InceptionV1-V4 MobileNet：Efficient-ConVolutinal-Neural-Networks-for-Mobile-Vision NASNet：Learning-Transferable Architectures-for-Scalable-Image-Recognition ShakeShake：Shake-Shake-regularization

2021-03-01

ltp_data_v3.4.0.zip

LTP数据模型提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。从应用角度来看，LTP为用户提供了下列组件：针对单一自然语言处理任务，生成统计机器学习模型的工具针对单一自然语言处理任务，调用模型进行分析的编程接口使用流水线方式将各个分析工具结合起来，形成一套统一的中文自然语言处理系统\ 系统可调用的，用于中文语言处理的模型文件针对单一自然语言处理任务，基于云端的编程接口

2020-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人