python
文章平均质量分 93
__盛夏光年__
这个作者很懒,什么都没留下…
展开
-
典型分类器评价指标及实例
一、概述在NLP中,经常需要使用机器学习的分类器。衡量分类器最常见的指标:准确率与召回率、准确度与F1-Score以及ROC与AUC。注意:本文以 Scikit-Learn 为环境二、实验数据1、导入相关库from sklearn.cross_validation import train_test_splitfrom sklearn.datasets import make_c...原创 2019-09-29 16:34:51 · 1434 阅读 · 2 评论 -
用Scikit-learn和TensorFlow进行机器学习(四)
文章目录训练模型概述一、线性回归训练模型概述作用:快速找到恰当的机器学习模型、训练算法、好的额假设集、有助于调试参数和有效的误差分析。以简单线性回归为例,讨论不同训练方法的模型最优解问题:直接采用封闭方程进行求解,得到当前训练集的最优参数(最小化损失函数)迭代优化(梯度下降,GD):通过逐渐调整模型参数以获得最小的损失函数。批量梯度下降(Batch GD)、小批量梯度下降(Mini-b...原创 2019-02-24 11:57:08 · 554 阅读 · 0 评论 -
用Scikit-learn和TensorFlow进行机器学习(三)
文章目录分类一、MNIST1、获取数据分类一、MNISTMNIST数据集:70000 张规格较小的手写数字图片。1、获取数据from sklearn.datasets import fetch_mldatamnist = fetch_mldata('MNIST original')print(mnist)...原创 2019-02-11 19:41:01 · 418 阅读 · 0 评论 -
Pandas——loc、iloc、ix 函数区别
1、loc函数通过行标签索引行数据。可以多行,可以[行标签, 列标签]import pandas as pdimport numpy as npdata = [[1, 2, 3],[4, 5, 6]]index1 = [10, 11]index2 = ['d', 'e']colums = ['a', 'b', 'c']df1 = pd.DataFrame(data=data, ...原创 2019-01-23 15:18:38 · 8306 阅读 · 0 评论 -
用Scikit-learn和TensorFlow进行机器学习(一)
文章目录机器学习概览一、什么是机器学习?1、定义2、适用二、分类1、监督, 非监督, 半监督和强化学习(1)监督学习(2)非监督学习(3)半监督学习(4)强化学习2、在线学习 vs 批量学习(1)在线学习(2)批量学习3、基于实例学习 vs 基于模型学习(1)基于实例学习(2)基于模型学习三、主要挑战四、测试和确认机器学习概览一、什么是机器学习?1、定义计算机程序利用经验 E 学习任务 T...原创 2019-01-22 21:26:17 · 723 阅读 · 0 评论 -
金融贷款逾期的模型构建7——模型融合
文章目录一、集成学习1、Bagging2、Boosting3、Stacking(1)核心图解a、构建新的训练集b、构建新的测试集c、最终的训练与预测(2)示例a、构建新的训练集b、构建新的测试集c、多模型的处理d、最终的训练与预测三、实现1、Reference数据传送门(data.csv):https://pan.baidu.com/s/1G1b2QJjYkkk7LDfGorbj5Q目标:数据...原创 2019-01-09 19:33:58 · 705 阅读 · 0 评论 -
用Scikit-learn和TensorFlow进行机器学习(二)
文章目录一个完整的机器学习项目一、真实数据二、项目概述1、划定问题2、选择性能指标(损失函数)(1)回归任务(2)平均绝对误差(MAE,Mean Absolute Error)(3)范数3、核实假设三、获取数据1、os模块2、urllib.request.urlretrieve四、查看数据结构1、数据信息查看一个完整的机器学习项目主要步骤:项目概述。获取数据。发现并可视化数据, 发现规...原创 2019-01-24 16:26:23 · 727 阅读 · 0 评论 -
【Pandas】qcut和cut的区别
qcut与cut的主要区别qcut:传入参数,要将数据分成多少组,即组的个数,具体的组距是由代码计算cut:传入参数,是分组依据。具体见示例1、qcut方法参考链接:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.qcut.htmlpandas.qcut(x, q, labels=None, retbins=F...原创 2019-01-14 09:57:58 · 3267 阅读 · 1 评论 -
【Pandas】apply,applymap和map的区别
结论apply:用在dataframe上,用于对row或者column进行计算;applymap:用于dataframe上,是元素级别的操作;map:(其实是python自带的)用于series上,是元素级别的操作。apply函数apply函数:pandas里面所有函数中自由度最高的函数。该函数如下:DataFrame.apply(func, axis=0, broadcast=F...原创 2019-01-14 09:36:44 · 3216 阅读 · 0 评论 -
kaggle入门竞赛之泰坦尼克事故存活预测(xgboost方法)
传送门:https://www.missshi.cn/api/view/blog/5a06a441e519f50d0400035e本文我们详细讲解如何利用xgboost方法来解决泰坦尼克沉船事故人员存活预测的问题。实现语言以Python为例来进行讲解。评价标准我们的目标是预测泰坦尼克号中哪些乘客可以幸存下来。评价维度就是预测的准确率。需要上传的文件格式如下:一个csv文件,包含418...转载 2019-01-14 09:11:41 · 2679 阅读 · 1 评论 -
用Scikit-learn和TensorFlow进行机器学习(五)
文章目录支持向量机(SVM)一、线性支持向量机分类1、硬间隔分类2、软间隔分类二、非线性支持向量机分类1、多项式核(Polynomial Kernel)2、增加相似特征3、计算复杂度三、SVM回归1、线性SVM回归2、非线性SVM回归四、SVM理论支持向量机(SVM)可做线性或者非线性的分类、回归,甚至异常值检测。适用于:复杂但中小规模数据集的分类问题。一、线性支持向量机分类1、硬间隔分...原创 2019-02-25 16:46:39 · 505 阅读 · 0 评论 -
【TensorFlow】笔记2:深层神经网络
一、深度学习 vs 深层神经网络深度学习:一类通过多层非线性变换对高复杂性数据建模算法的集合。1、激活函数线性模型的最大特点:任意线性模型的组合仍是线性模型,能够解决的问题也是有限的,这就是线性模型最大的局限。==》解决方法:激活函数实现去线性化如果将前面提到的加权和节点后(注意:添加偏置项)通过一个非线性函数,那么神经网络模型就是非线性的了。这个非线性函数就是激活函数(activati...原创 2019-03-13 22:51:53 · 227 阅读 · 0 评论 -
【Keras】学习笔记(二)
文章目录一、Keras 模型1、共同的方法和属性2、Model 类继承二、Sequential 模型 API1、compile():配置训练模型2、fit():训练模型3、evaluate():模型评估4、predict():预测5、train_on_batch()6、test_on_batch()7、predict_on_batch()8、fit_generator()9、evaluate_ge...原创 2019-09-23 17:55:23 · 1786 阅读 · 0 评论 -
【Keras】学习笔记(一)
传送门:Keras 中文文档文章目录一、准备工作1、概述2、安装二、顺序模型 简单示例1、整体流程(1)顺序模型的构建——Sequential()(2)模型编译——compile(3)模型训练——fit2、示例(1)样例1:基于多层感知器 (MLP) 的 softmax 多分类示例2:类似 VGG 的卷积神经网络示例3:基于 LSTM 的序列分类(4)示例4:用于序列分类的栈式LSTM(5)示例...原创 2019-09-23 09:18:14 · 222 阅读 · 0 评论 -
【Python 自然语言处理 第二版】读书笔记2:获得文本语料和词汇资源
文章目录一、获取文本语料库1、古腾堡语料库大量的语言数据或者语料库。一、获取文本语料库1、古腾堡语料库NLTK 包含 古腾堡项目(Project Gutenberg) 电子文本档案的经过挑选的一小部分文本,该项目大约有25,000本免费电子图书。import nltk# 输出语料库中的文件标识符print(nltk.corpus.gutenberg.fileids())...原创 2019-05-23 15:17:14 · 1736 阅读 · 0 评论 -
【爬虫笔记】Scrapy爬虫技术文章网站
Scrapy相关基本介绍参考这里一般的爬虫步骤:新建项目 (scrapy startproject xxx):新建一个新的爬虫项目明确目标(编写 items.py):定义提取的结构化数据制作爬虫(spiders/xxspider.py):制作爬虫开始爬取网页,提取出结构化数据存储内容(pipelines.py):设计管道存储爬取内容目标任务:爬取伯乐在线所有技术文档,需要爬取的内容...原创 2019-05-12 22:48:45 · 247 阅读 · 0 评论 -
【Python 自然语言处理 第二版】读书笔记1:语言处理与Python
文章目录前言语言处理与Python一、语言计算:文本和单词1、NLTK入门(1)安装(nltk、nltk.book)(2)搜索文本(3)词汇计数2、列表与字符串(1)列表操作(2)索引列表(3)变量(4)字符串二、计算语言:简单的统计1、频率分布2、细粒度的选择词(1)选出长度大于15的单词(2)频繁出现的长词(3)提取词汇中的次对(4)提取文本中的频繁出现的双连词3、计数其他东西(1)文本中词长...原创 2019-05-21 17:16:23 · 741 阅读 · 0 评论 -
Ubuntu18.04 安装MySQL、Navicat
一、MySQL1、安装MySQL安装命令sudo apt-get install mysql-serversudo apt-get install mysql-clientsudo apt-get install libmysqlclient-dev检验sudo netstat -tap | grep mysql通过上述命令检查之后,如果看到有mysql 的sock...原创 2019-05-11 19:08:48 · 752 阅读 · 0 评论 -
【爬虫】Scrapy爬取腾讯社招信息
目标任务:爬取腾讯社招信息,需要爬取的内容为:职位名称,职位的详情链接,职位类别,招聘人数,工作地点,发布时间。一、预备基础1、Scrapy简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛,可用于数据挖掘、监测和自动化测试。Scrapy 使用了 Twisted 异步网络库来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,...原创 2019-04-12 23:31:00 · 1087 阅读 · 1 评论 -
【Python】list 之 extend 和 append 的区别
示例a = [1, 2, '3', '1']a.extend([1, 2])print(a)a.append([1, 2])print(a)输出结果[1, 2, '3', '1', 1, 2][1, 2, '3', '1', 1, 2, [1, 2]]list 之 extend 和 append 的区别列表可包含任何数据类型的元素,单个列表中的元素无须全为同一类型。ap...原创 2019-03-25 17:05:01 · 166 阅读 · 0 评论 -
【TensorFlow】笔记3:MNIST数字识别问题
文章目录一、MNIST数据处理1、数据集概述2、数据获取二、神经网络模型训练及不同模型结果对比1、TF训练神经网络一、MNIST数据处理1、数据集概述MNIST 数据集是 NIST 数据集的一个子集,它包含了 60000 张图片作为训练数据, 10000 张图片作为测试数据。在 MNIST 数据集中的每一张图片都代表了 0~9 中的一个数字。图片的大小都为 28×2828\times2828...原创 2019-03-15 09:55:04 · 1294 阅读 · 2 评论 -
金融贷款逾期的模型构建6——特征选择
文章目录一、原理数据传送门(data.csv):https://pan.baidu.com/s/1G1b2QJjYkkk7LDfGorbj5Q目标:数据集是金融数据(非脱敏),要预测贷款用户是否会逾期。表格中 “status” 是结果标签:0表示未逾期,1表示逾期。任务:分别用IV值和随机森林进行特征选择。然后分别构建模型(逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和Lig...原创 2019-01-05 20:20:32 · 1816 阅读 · 0 评论 -
【Python】编程笔记11
文章目录常用内置模块一、datetime模块常用内置模块一、datetime模块datetime:处理日期和时间的标准库。原创 2018-12-25 22:46:20 · 201 阅读 · 0 评论 -
【Numpy】学习笔记1
文章目录一、概述二、基础1、创建数组(1)通过 list 创建数组(2)特殊数组2、数组运算(1)基础运算(一维)(2)基础运算(二维)3、数学函数4、数组切片和索引5、数组形状操作(1)形变(2)数组的拼合6、数组排序7、数组统计三、进阶1、创建数组55https://www.shiyanlou.com/courses/running一、概述numpy 支持大量高维度数组与矩阵运算,此外也针...原创 2019-01-04 15:05:51 · 666 阅读 · 0 评论 -
金融贷款逾期的模型构建3——模型评估
目标:记录7个模型(逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和LightGBM)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线。一、评价指标1、基本概念对于一个二分类问题,预测与真实结果会出现四种情况。真实情况 \ 预测情况正类负类正类TP(True Positive)FN(Fal...原创 2018-12-21 11:12:26 · 1665 阅读 · 0 评论 -
【编程6】贪吃蛇游戏(python+pygame)
效果图~新鲜出炉开始界面游戏中结束界面一、二、核心代码主函数def main(): pygame.init() # 创建Pygame时钟对象,控制每个循环多长时间运行一次。 # 例如:snake_speed_clock(60)代表每秒内循环要运行的 60 次 # 每秒60个循环(或帧)时,每个循环需要1000/60=16.66ms(大约1...原创 2018-12-15 16:15:14 · 3657 阅读 · 6 评论 -
【Python】编程笔记8
文章目录IO编程一、文件读写1、读文件(1)open()(2)read()(3)close()(4)try...finally实现(5)with 语句(强烈推荐)(6)注意(7)二进制文件(8)字符编码——encoding、errors2、写文件(1)基本(2)with 语句二、StringIO 和 BytesIO1、StringIO2、BytesIO三、操作文件和目录1、系统属性信息2、操作文件...原创 2018-12-20 20:45:20 · 163 阅读 · 0 评论 -
【Python】编程笔记7
文章目录面向对象高级编程一、__slots__二、@property装饰器三、多重继承——MixIn四、定制类——`__xxx__`1、`__str__()` 与 `__repr__()`2、`__iter__()`3、`__getitem__()`面向对象高级编程高级特性:多重继承、定制类、元类等概念。一、slots__slots__变量:限制该 class 实例能添加的属性。clas...原创 2018-12-19 23:48:31 · 166 阅读 · 0 评论 -
【Python】编程笔记6
文章目录面向对象编程(Object Oriented Programming,OOP)一、类(class)和 实例(instance)二、数据封装三、访问限制四、继承和多态五、获取对象信息1、对象类型——type() 函数2、isinstance() 函数3、dir() 函数4、getattr()、 setattr() 以及 hasattr() 函数六、实例属性和类属性1、实例属性2、类属性面向...原创 2018-12-19 15:23:33 · 126 阅读 · 0 评论 -
Ubuntu下pip3的安装、升级、卸载
(1) 安装sudo apt-get install python3-pip(2)升级sudo pip3 install --upgrade pip(3)卸载sudo apt-get remove python3-pip原创 2018-09-23 12:10:51 · 2137 阅读 · 0 评论 -
Python基础
code:#!/usr/bin/python# -*- coding:utf-8 -*-# 导入NumPy函数库,一般都是用这样的形式(包括别名np,几乎是约定俗成的)import numpy as npimport matplotlib as mplfrom mpl_toolkits.mplot3d import Axes3Dfrom matplotlib import cmimpor原创 2017-08-24 16:19:04 · 300 阅读 · 0 评论 -
np.newaxis——np.ndarray增加维数
numpy.newaxis The newaxis object can be used in all slicing operations to create an axis of length one. newaxis is an alias for ‘None’, and‘None’can be used in place of this with the same result.原创 2017-08-27 14:54:24 · 885 阅读 · 0 评论 -
【Python】编程笔记1
一、概述Python 提供了非常完善的基础代码库: 覆盖了网络、文件、GUI、数据库、文本等大量内容,被形象地称作“内置电池( batteries included) ”。==》许多功能不必从零编写,直接使用现成的即可。特点:“优雅”、 “明确”、 “简单”编译执行过程:编译器或者解释器就是负责把符合语法的程序代码转换成 CPU 能够执行的机器码,然后执行。应用:网络应用,包括网站...原创 2018-12-17 14:24:20 · 246 阅读 · 0 评论 -
【Python】编程笔记2
一、字符串和编码1、字符编码过程:ASCII ==》Unicode ==》utf-8ASCII编码:一个字节,127个字符;Unicode将所有语言都统一到一套编码中,解决了乱码的问题。Unicode最常用的用 2 个字节表示一个字符(若要用到非常偏僻的字符,就需要4个字节);UTF-8 解决了Unicode编码空间浪费问题,将Unicode转换为”可变长编码“。具体来说,UTF-8 ...原创 2018-12-17 20:45:51 · 165 阅读 · 0 评论 -
金融贷款逾期的模型构建1
数据data_all.csv文件是非原始数据,已经处理过了。数据是金融数据, 我们要做的是预测贷款用户是否会逾期。表格中, status是标签: 0表示未逾期, 1表示逾期。任务——模型构建给定数据集,数据三七分,随机种子2018。(在任务1中什么都不用考虑,即不需数据处理和模型调参)调用sklearn的包,简单构建逻辑回归、SVM和决策树3个模型,评分方式任意(e.g. 准确度和auc值...原创 2018-12-18 10:10:56 · 988 阅读 · 1 评论 -
【Python】编程笔记10
文章目录正则表达式一、基本使用二、进阶——更精确三、re模块1、match()方法2、split()——切分字符串3、()——分组4、贪婪匹配5、编译正则表达式用于匹配字符串。思想 :用一种描述性的语言来给字符串定义一个规则,凡事符合规则的字符串,则认为“匹配”,否则,不合法。一、基本使用符号含义\s匹配一个空格、空白符\d匹配一个数字\w匹配一...原创 2018-12-24 23:19:34 · 154 阅读 · 0 评论 -
【Python】编程笔记9
文章目录进程和线程一、基础知识二、多进程(multiprocessing)1、初体验2、Pool(进程池)(1)非阻塞(2)阻塞(3)分析3、子进程进程和线程对于操作系统来说,一个任务就是一个进程(Process)。在一个进程内部,要同时干多件事,就需要同时运行多个“子任务”,将进程内的这些“子任务”称为线程(Thread)。==》如何同时执行多个任务?方法1:多进程模式。 启动多个进...原创 2018-12-24 22:04:13 · 363 阅读 · 0 评论 -
【Python】编程笔记5
函数式编程(Functional Programming)函数式编程:思想更接近于数学计算,抽象程度很高的编程范式,纯粹的函数式编程语言编写的函数没有变量。特点:允许把函数本身作为参数传入另一个函数,还允许返回一个函数。Python 允许使用变量,因此,Python 不是纯函数式编程语言。一、高阶函数(Higher-order function)函数本身也可以赋值给变量,即:变量可以指向...原创 2018-12-19 11:03:53 · 163 阅读 · 0 评论 -
金融贷款逾期的模型构建2——集成模型
任务——模型构建构建随机森林、GBDT、XGBoost和LightGBM这4个模型,并对每一个模型进行评分,评分方式任意,例如准确度和auc值。1、相关安装资源随机森林、GBDT均在sklearn包中;LightGBM:https://github.com/Microsoft/LightGBM目前已经是pypi中的资源 ==》pip方式安装XGBoost:https://www...原创 2018-12-19 10:55:56 · 528 阅读 · 0 评论 -
金融贷款逾期的模型构建5——数据预处理
文章目录一、相关库二、数据读取三、数据清洗——删除无关、重复数据四、数据清洗——类型转换1、数据集划分2、缺失值处理3、异常值处理4、离散特征编码5、日期特征处理6、特征组合五、数据集划分六、模型构建七、模型评估数据传送门(与之前的不同):https://pan.baidu.com/s/1G1b2QJjYkkk7LDfGorbj5Q目标:数据集是金融数据(非脱敏),要预测贷款用户是否会逾期。表...原创 2019-01-04 09:41:27 · 1560 阅读 · 2 评论