- 博客(88)
- 收藏
- 关注
原创 Credit Fraud || Dealing with Imbalanced Datasets
Credit Fraud || Dealing with Imbalanced Datasets1、导入数据import pandas as pddf=pd.read_csv(r'C:\Users\Administrator\Desktop\project\creditcard.csv')df2、数据处理缺失值df.isnull().sum().max()查看标签数据分...
2019-10-30 18:35:18 576
原创 数据预处理和特征选择
数据预处理def split_data(all_data,label): # 分label与features cols=list(filter(lambda item:item !=label,all_data.columns)) #need fix all_data.fillna(0, inplace=True) feature_data = np.ar...
2019-10-11 18:29:19 456
原创 woe特征转换
woe特征转换class CattoWoe(BaseEstimator, TransformerMixin): """ Parameters ---------- label : the label column name Attributes ---------- woe_dict : dict of intervals,example ...
2019-10-11 17:32:43 2246
原创 分箱处理
分箱处理1、取出数值类型的列(num_cols)和过滤掉没有标签的数据(df)cols=list(filter(lambda item:item!='classification',df.columns))df['classification']=df['classification'].replace({'good':1,'bad':0})df['classification'].val...
2019-10-11 17:12:20 2283
原创 A Complete Beginner's Guide to Django - Part 3
本节内容:我们主要关注url、可重用模板和表单myproject/urls.pyfrom django.conf.urls import urlfrom django.contrib import adminfrom boards import views#def url(regex, view, kwargs=None, name=None)urlpatterns = [ ...
2019-12-19 00:26:19 466
原创 A Complete Beginner's Guide to Django - Part 2
本节内容:我们为项目定义了一些需求,创建了第一个模型,迁移了数据库,开始使用模型API。我们创建了第一个视图并编写了一些单元测试。我们还配置了Django模板引擎、静态文件,并将Bootstrap 4库添加到项目中。最后,我们非常简要地介绍了Django管理界面。用例图我们的项目是一个讨论区(论坛)。整个想法是维护几个董事会,它们将像类别一样运作。然后,在一个特定的面板中,用户可以...
2019-12-18 22:32:48 598
原创 A Complete Beginner's Guide to Django - Part 1
本节内容:介绍了虚拟环境开始了我们的第一个Django项目,并且已经创建了我们最初的应用程序。原创参考virtualenv projectInstalling Django 1.11.4django-admin startproject myprojectdjango-admin startapp boardsBut for now, let them be and jus...
2019-12-18 21:41:24 320
原创 管道模型评估
#模型初始化、网格调参from imblearn.over_sampling import SMOTEfrom sklearn.model_selection import train_test_split,RandomizedSearchCVlog_reg_sm=LogisticRegression()log_reg_params={'penalty':['l1','l2'],'C':...
2019-11-19 11:55:36 412
原创 评价指标的标准
评价指标的标准acc0.5 - 0.7:效果较低,但用于预测股票已经很不错了0.7 - 0.85:效果一般0.85 - 0.95:效果很好0.95 - 1:效果非常好,但一般不太可能
2019-11-15 09:07:20 308
原创 下采样数据分析流程
一、数据预处理查看缺失值df.isnull().sum().max()特征数据缩放处理查看Amount Time特征的数据分布from scipy import stats,integratefig,ax=plt.subplots(1,2,figsize=(15,3))amount_values=df['Amount'].valuestime_values=df[...
2019-11-12 18:13:33 973
原创 算法参数
# Use GridSearchCV to find the best parameters.from sklearn.model_selection import GridSearchCV# Logistic Regression log_reg_params = {"penalty": ['l1', 'l2'], 'C': [0.001, 0.01, 0.1, 1, 10, 100,...
2019-11-08 16:58:13 416
原创 matplotlib
matplotlibcharacter``'.'`` point marker``','`` pixel marker``'o'`` circle marker``'v'`` triangle_down marker``'^'`` triangle_up marker``'<'`` ...
2019-11-08 11:35:58 145
原创 横向柱状图
横向柱状图import matplotlib.pyplot as pltimport numpy as npfont = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=21)plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 构建数据x_data = x_ax...
2019-11-06 14:26:34 1687
原创 柱状图和条形图
柱状图和条形图import matplotlib.pyplot as pltimport numpy as npimport matplotlib.ticker as mtick from matplotlib.font_manager import FontPropertiesfont = FontProperties(fname=r"c:\windows\fonts\simsun...
2019-11-05 11:27:14 819
原创 画并列柱状图
并列柱状图import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']#设置字体以便支持中文import numpy as npx=np.arange(3)#柱状图在横坐标上的位置#列出你要显示的数据,数据的列表长度与x长度相同y1=y_axis_1y2=y_axis_2bar_width=0...
2019-11-05 08:57:09 1143
转载 准确率,召回率,精确率
准确率,召回率,精确率计算准确率:accuracy_score(y_true, y_pred) normalize=True返回正确分类的比例,如果为False返回正确分类#的样本数 分类正确的百分比#准确率:检索和未被检索正确分类的数与总数之比 (TP+TN)/(TP+TN+FN+FP)#精确率:检索到实际是正确的/检索到实际是正确的+检索到的实际上是错误的—TP/(TP+FP...
2019-10-30 11:44:09 950
原创 弗里德曼测试
弗里德曼测试1、读取数据df=pd.read_csv(r'C:\Users\Administrator\Desktop\project\african_crises.csv')df2、缺失值的可视化import missingno as msnomsno.bar(df)3、数据处理X=df.iloc[:,2:12]Y=df['banking_crisis']#离散型数据...
2019-10-30 11:33:25 2717 1
原创 数据可视化
数据可视化import pandas as pddf=pd.read_csv(r'C:\Users\Administrator\Desktop\project\appstore_games.csv')df1、df.describe()#输入所有的列都在输出中,df.describe(include='all')#count:计数,这一组数据中包含的数据个数#mean:平均值,这...
2019-10-28 15:41:55 329
原创 完整数据分析流程
1、binning_woebinningdef get_interval(df,label,split_func,bins_num=None,self_thres=None): """ df : the need process dataframe data label : the column name of label data split_func :...
2019-10-27 22:26:45 626
原创 plt.subplots()详解
plt.subplots()详解一、通过ax控制子图1、单行单列# 定义figfig = plt.figure()# 建立子图ax = fig.subplots(2,1) # 2*1# 第一个图为ax[0].plot([1,2], [3,4])# 第二个图为ax[1].plot([1,2], [3,4])2、多行多列# 定义figfig = plt.figure(...
2019-10-25 17:51:11 18167 3
原创 django生成验证码图片
django生成验证码图片1、获取一个画布对象image2、根据画布对象,创建一个画笔对象3、根据参数定位、 字符、颜色、字体生成图片中的验证码4、画干扰线、画点5、BytesIo在内存中生成图片from PIL import Image,ImageDraw,ImageFontimport randomclass ValidCodeImg: def __init__(s...
2019-10-18 15:23:34 259
原创 数据统计流程
数据统计流程1、#总的流程#1、读取数据df1=pd.read_excel(r'E:\anju\待审核.xlsx')df2=pd.read_excel(r'E:\anju\待放款.xlsx')df3=pd.read_excel(r'E:\anju\已放款.xlsx')df4=pd.read_excel(r'E:\anju\拒贷.xlsx')df5=pd.read_excel(r'E...
2019-10-16 17:27:02 399
原创 用户的登录注册
用户的登录注册主urlsfrom django.contrib import adminfrom django.urls import path,includeurlpatterns = [ path('admin/', admin.site.urls), path('users/', include('Offline.urls', namespace='users'))...
2019-10-14 22:38:42 1031
原创 装饰器计时
def timefunc(func): """Decorator to calc function's time cost.""" import time def wrapper(*args, **kw): st = time.perf_counter() res = func(*args, **kw) et = time.p...
2019-10-11 11:03:15 202
原创 urllib使用
urllib使用前言:2、图片防盗链原理:referer 上一级页面1、urllib.parse处理参数的quote() https://www.baidu.com/s?ie=UTF-8&wd=%E4%B8%91%E5%A5%B3url里面不能出现中文。unquote() url解码函数urlencode() 传递一个字典,将字典转化为键=值&键=值...
2019-10-10 21:15:30 1434
原创 pandas-索引与数据选择器
pandas-索引与数据选择器选择随机样本s.sample()s.sample(n=3)s.sample(n=6,replace=False):replace=True 可以返回多次s.sample(n=6,replace=True)产生随机列:df3 = pd.DataFrame({'col1': [1, 2, 3], 'col2': [2, 3, 4]})df3.samp...
2019-10-10 16:42:19 298
原创 requests
requests前言:requests是什么?urllib是什么?模拟浏览器发送http请求,requests的功能和urllib一模一样,也是模拟浏览器发送http请求的,requests是对urllib又一层封装,提供的接口更加的简单和人性化可以查看文档发送getr = requests.get(url=url, headers=headers, params=data)r.tex...
2019-10-09 22:45:59 161
原创 pandas-style样式
pandas-style样式np.random.seed(24)df=pd.DataFrame({'A':np.linspace(1,10,10)})df=pd.concat([df,pd.DataFrame(np.random.randn(10,4),columns=list('BCDE'))], axis=1)dfdf.iloc[0,2]=np.nand...
2019-10-09 18:10:16 2452
原创 pandas处理字符串
pandas处理字符串1、split基本使用s2 = pd.Series(['a_b_c', 'c_d_e', np.nan, 'f_g_h'])s2s2.str.split('_')获取指定字符s2.str.split('_').str.get(1)参数 expand=True:返回一个数据表s2.str.split('_',expand=True)...
2019-10-09 11:00:13 744
原创 重塑和数据透视表
重塑和数据透视表1、stacking and unstackingiterables=[['bar','baz','foo','qux'],['one','two']]index = pd.MultiIndex.from_product(iterables, names=['first', 'second'])indexdf = pd.DataFrame(np.random.rand...
2019-10-08 17:26:44 207
原创 DatetimeIndex
DatetimeIndex转换为array格式date=pd.date_range('01/03/2000',periods=3)datepydate_array = date.to_pydatetime()date_only_array = np.vectorize(lambda s: s.strftime('%Y-%m-%d'))(pydate_array )date_only_...
2019-10-08 14:34:18 544
原创 scrapy爬取公交站
scrapy爬取公交站1、settingsITEM_PIPELINES = { 'test2.pipelines.Test2Pipeline': 300,}2、itemsclass Test2Item(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field()...
2019-09-30 16:35:11 590
原创 完整的scrapy流程
完整的scrapy流程1、编写配置ITEM_PIPELINES = { 'test1.pipelines.Test1Pipeline': 300,}2、编写spiderclass Itcastspider(scrapy.Spider): name = "itcast" # 爬虫的识别名称 allowed_domains = ['lab.scrapyd.cn/',...
2019-09-29 16:18:36 218
原创 scrapy框架
scrapy框架流程:1、spiders将起始的url生成请求对象,引擎将请求对象扔给调度器2、调度器出一个请求,引擎将请求扔给下载器3、下载器从网络下载数据得到响应对象,引擎将响应对象扔给spiders,(过程需要定制东西(代理中间件))4、spiders解析内容,提取数据item(),引擎将item给管道5、管道将item保存到文件,数据库认识目录结构基本流程注意:起始...
2019-09-28 22:15:24 116
原创 自定义特征选择转换器
自定义特征选择转换器#保存响应变量class CustomCorrelationChooser(TransformerMixin,BaseEstimator): def __init__(self,response,cols_keep=[],threshold=None): #保存响应变量 self.response=response #...
2019-09-26 00:03:46 235
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人