自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Iceforest的博客

数据分析数据挖掘学习者,机器学习游客

  • 博客(60)
  • 收藏
  • 关注

原创 天池新人竞赛 零基础入门NLP - 新闻文本分类

这里写自定义目录标题一、赛题理解赛题任务数据标签评分标准解题思路:一、赛题理解赛题任务赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。比赛数据的文本按照字符级别进行了匿名处理。数据标签labeltext6

2020-07-22 09:26:56 445

原创 任务二:特征工程

特征衍生特征衍生就是指对原始的数据特征进行一些加减乘除或者根据其业务场景来衍生出一些在原始数据集中不存在的特征。IV值IV的全称是InformationValue,也就是信息价值或信息量的意思。在我们对面数据有较多的特征时比如这次的数据有90个特征时,我们不会直接把这90个特征全放在模型中去训练,而是会选出一些来进行训练,那么我们选择的标准是什么呢。通常我们需要考虑的因素很多,比...

2019-08-10 00:00:49 327

原创 任务一:数据预处理

首先我们导入需要的包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt import osimport seaborn as snsfrom sklearn.model_selection import train_test_split其次我们看看数据长啥样data = pd.read...

2019-08-06 19:27:58 530

原创 李宏毅机器学习(四)

1.从基础概率推导到贝叶斯公式首先需要了解概率的概念:概率是对随机事件发生的可能性的度量,在0-1之间表示事件发生可能性的大小,越接近1表示随机事件发生的可能性越大。其次需要了解条件概率的概念:条件概率是指事件A在另一个事件B已经发生的条件下发生的概率,用P(A|B)来表示。如果两个事件相互独立,意味着事件B的发生和事件A的发生没有关系,此事P(AB) = P(A)P(B)。然后是关于...

2019-05-25 20:00:04 195

原创 PM2.5预测

本篇为李宏毅机器学习第三次作业内容,不使用sklearn包来手写线性回归完成对PM2.5的预测,先说本次代码的不足和欠缺思考的部分,首先对数据的特征没有进行过多的处理,如异常值和标准化,其次使用的是最简单的一次线性模型,可能存在拟合程度不够,最后采用的梯度下降方法不够优化,没有使用Adagrad方法进行梯度下降.这次的作业和内容还有很多值得完善和思考的地方,但自己手写代码和推导对于机器学习的理解可...

2019-05-22 18:35:06 2900

原创 随机梯度下降

随机梯度下降(SGD)是一种简单但又非常高效的方法,主要用于凸损失函数下线性分类器的判别式学习,例如(线性)支持向量机和Logistic 回归。 尽管 SGD 在机器学习社区已经存在了很长时间, 但是最近在 large-scale learning (大规模学习)方面 SGD 获得了相当大的关注。Stochastic Gradient Descent (随机梯度下降法)的优势:...

2019-05-15 18:56:01 681

原创 支持向量机

支持向量机 (SVMs)可用于以下监督学习算法分类,回归和异常检测.支持向量机的优势在于:在高维空间中非常高效. 即使在数据维度比样本数量大的情况下仍然有效. 在决策函数(称为支持向量)中使用训练集的子集,因此它也是高效利用内存的. 通用性: 不同的核函数核函数与特定的决策函数一一对应.常见的 kernel 已经提供,也可以指定定制的内核.支持向量机的缺点包括:...

2019-05-15 17:34:23 341

原创 内核岭回归

Kernel ridge regression (KRR) (内核岭回归)它所学习到的在空间中不同的线性函数是由不同的内核和数据所导致的。对于非线性的内核,它与原始空间中的非线性函数相对应。由KernelRidge学习的模型的形式与支持向量回归(SVR) 是一样的。但是他们使用不同的损失函数:内核岭回归(KRR)使用 squared error loss (平方误差损失函数)而 s...

2019-05-15 14:44:21 1240

原创 sklearn文档-线性和二次判别分析

1.线性判别分析Linear Discriminant Analysis(线性判别分析)(sklearn.discriminant_analysiss.LinearDiscriminantAnalysis) 和 Quadratic Discriminant Analysis (二次判别分析)(discriminant_analysis.QuadraticDiscriminantAnalysis...

2019-05-15 14:17:33 1229

原创 sklearn学习

1.广义线性模型如果是预测值, 在整个模块中,我们定义向量 作为coef_,定义 作为intercept_。1.1 普通最小二乘法LinearRegression拟合一个带有系数 的线性模型,使得数据集实际观测数据和预测数据(估计值)之间的残差平方和最小。其数学表达式为:LinearRegression会调用fit方法来拟合数组 X, y,并且...

2019-05-15 12:33:11 698

原创 李宏毅机器学习-part1

目录1.中心极限定理的概念2.正态分布3.极大似然估计4.推导回归Loss function5.损失函数与凸函数之间的关系6.全局最优和局部最优7.推导梯度下降公式8.梯度下降的代码实现9.正则化公式的推导10.L0-Norm,L1-Norm,L2-Norm11.为什么用L1-Norm代替L0-Norm12.学习为什么只对w/Θ做限制,不对b做限制...

2019-05-13 17:35:58 336

原创 统计学知识梳理--NO.4

本次学习包含内容:线性回归,卡方分布,,方差分析和演绎推理。本次学习参考内容:1.可汗学院统计学公开课62-81集2.《深入浅出统计学》对应知识点翻一翻参考:https://blog.csdn.net/sm376624607/article/details/88093103目录知识点清单1.线性回归2.分布3.方差分析4.演绎推理与归纳推理知识点清...

2019-03-05 17:28:59 1711

原创 统计学知识梳理--NO..3

本次学习涵盖知识点:假设检验本次学习参考内容:1.可汗学院统计学公开课47-61集2.《深入浅出统计学》对应知识点翻一翻知识点清单1.假设检验假设检验的定义:通常设定两个假设,零假设备择假设,然后通过拒绝零假设,来接受备择假设,从而完成检验。通常假设零假设是正确的,如果零假设正确,得到这个样本的概率是多少,如果这个概率非常小,我们就认为零假设不正确,于是拒绝零假设,而...

2019-03-03 17:55:41 731

原创 达观杯数据竞赛 01

比赛地址这是一个NLP类型的数据比赛,小白一个,初步了解学习目标:1. 下载数据,读取数据,观察数据2. 将训练集拆分为训练集和验证集。要求:数据3-7分,随机种子20193. 分享自己对数据以及赛题的理解和发现首先导入读取数据和分割数据所需要用的Python包import pandas as pdfrom sklearn.model_selection im...

2019-03-01 20:54:17 281

原创 统计学知识梳理--NO.2

目录知识点清单1.中心极限定理2.置信区间3.伯努利分布4.误差范围5.小样本容量置信区间本次学习涵盖知识点:中心极限定理,置信区间本次学习参考内容:1.可汗学院统计学公开课35-46集2.《深入浅出统计学》对应知识点翻一翻知识点清单1.中心极限定理中心极限定理:设从均值为μ、方差为σ2的任意一个总体中抽取样本量为n的样本,当n充分大时,...

2019-03-01 17:12:42 844

转载 转载-CSDN-markdown语法之如何使用LaTeX语法编写数学公式

后续完善。。。https://blog.csdn.net/lanxuezaipiao/article/details/44341645/

2019-03-01 16:33:12 129

原创 统计学基础知识梳理--NO.1

本次学习涵盖的知识点:统计学的基本概念,二项分布,泊松分布,大数定律,正态分布本次学习参考内容:1.可汗学院统计学公开课2.《深入浅出统计学》知识点清单1.均值 中位数 众数均值u的计算方式:,表示样本的值,表示对所有的样本点求和,是样本的个数,用一句话来概括就是将一批数据进行求和,然后除以这批数据的个数就是这批数据的均值,我们常说的平均值是算术平均值。中位数:将...

2019-02-28 17:59:12 2175

原创 《看见统计》--可视化的统计学习入门

美国布朗大学的统计学可视化教材,很好的统计学入门资料,可以很直观的理解统计学的概念,机器学习小白必备,推荐给大家。链接:https://seeing-theory.brown.edu/cn.html共六个章节,分别为:基础概率论进阶概率论概率分布统计推断:频率学派统计推断:贝叶斯学派回归分析每个章节三个板块的内容,循序渐进,后面也会介绍到贝叶斯公式和...

2019-02-26 15:22:02 10283 2

原创 SPSSModeler的下载与安装

下载地址:https://www.ibm.com/analytics/cn/zh/technology/spss/然后下载适合自己电脑的版本,有Windows和Mac版,然后直接默认安装路径即可

2018-09-26 09:02:17 7253 1

原创 SPSSModeler的下载与安装

下载地址:https://www.ibm.com/analytics/cn/zh/technology/spss/然后下载适合自己电脑的版本,有Windows和Mac版,然后直接默认安装路径即可

2018-09-26 09:02:17 1215

原创 SPSSModeler的下载与安装

下载地址:https://www.ibm.com/analytics/cn/zh/technology/spss/然后下载适合自己电脑的版本,有Windows和Mac版,然后直接默认安装路径即可

2018-09-26 09:02:17 6657

原创 SPSSModeler的下载与安装

下载地址:https://www.ibm.com/analytics/cn/zh/technology/spss/然后下载适合自己电脑的版本,有Windows和Mac版,然后直接默认安装路径即可

2018-09-26 09:02:17 1424

原创 SPSSModeler的下载与安装

下载地址:https://www.ibm.com/analytics/cn/zh/technology/spss/然后下载适合自己电脑的版本,有Windows和Mac版,然后直接默认安装路径即可

2018-09-26 09:02:17 7401

原创 Python中argsort函数用法

 argsort函数在numpy包中,argsort函数返回的是数组从小到大排序后对应的数组索引先看一下在一维数组中的表现:>>> import numpy as np>>> a = np.array([5,-1,3])>>> np.argsort(a)array([1, 2, 0], dtype=int64)可以看到arg...

2018-08-03 11:38:52 1760

原创 numpy中tile函数的作用

tile函数的主要功能就是将一个数组重复一定次数形成一个新的数组,但是无论如何,最后形成的一定还是一个数组>>> from numpy import *>>> a = [1,2,3]>>> b = tile(a,3)#numpy中的一个函数>>> barray([1, 2, 3, 1, 2, 3, 1, 2, 3...

2018-08-03 10:50:30 5361

原创 seaborn stripplot的dodge参数报错 unknown property dodge 错误

解决方式:一般是seaborn版本的问题,更新seaborn即可,重装seaborn,pip install seaborn

2018-07-27 16:59:13 585

转载 Jupyter Notebook 中常用的快捷键

本文转载自:https://blog.csdn.net/lawme/article/details/51034543,侵删Jupyter Notebook 的快捷键Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式 (按键 Esc 开启)Enter : 转入编辑模式Sh...

2018-07-11 10:53:38 392

原创 使用Python3连接SQL server

本文将介绍如何利用Python连接数据库,获取数据库数据,本文参照https://www.cnblogs.com/baiyangcao/p/pymssql_basic.html只实现了数据库的连接,因为工作需求,这里只演示了查询数据的方法,如果有插入数据,创建表等需求,可以参照原文连接,使用的数据库是SQL server 20141.安装pymssql包:如果用的是anaconda,直接 cond...

2018-05-14 10:37:54 1897 1

转载 R语言中的scale函数及标准化和归一化的理解

在不同组数据间存在差异时,经常要进行标准化或者归一化处理,标准化,归一化及scale的具体理解见https://blog.csdn.net/tanzuozhev/article/details/50602051,待我日后英文水平高了之后也自行查看...

2018-04-27 19:37:06 18490

原创 Kaggle|Give Me Some Credit信用卡评分建模分析(R语言)

1.目的    本文是基于Kaggle|Give Me Some Credit项目(数据地址:https://www.kaggle.com/c/GiveMeSomeCredit),通过对消费者的人口特征、信用历史记录、交易记录等大量数据进行系统的分析、挖掘数据蕴含的行为模式、信用特征,发展出预测行的模式,结合信用卡评分的构建原理,采用R语言完成数据的清洗,主要包括缺失数据的填充、异常的删除和数据的...

2018-04-26 19:45:38 10990 2

转载 R运行错误:Error: package or namespace load failed for ‘rJava’的解决办法

转载链接:https://blog.csdn.net/peter_bell/article/details/78579187     问题:    在运行R的过程中,通常会需要调用rJava.dll来运行虚拟环境。比如,导入包library(xlsx)的时候,出错:> library(xlsx)载入需要的程辑包:rJavaError: package or namespace load fa...

2018-04-25 12:02:55 57529

原创 某招聘网站的数据分析师岗位分析

数据采集于拉钩上的数据分析师岗位,要对数据分析师这个岗位有所了解,最直观的方式就是获取企业那里获得数据分析师的岗位信息,然后进行一些探索和分析,以此来加深自己对数据分析师这个岗位的认识简要介绍一下本次爬取数据的字段信息:city(城市),companyId(公司ID),companyShortName(公司简称),education(教育程度),industryFileld(公司领域),posit...

2018-04-07 18:41:50 2986

原创 类的内置属性

isinstance(obj,cls)检查obj是否是类cls的对象issubclass(sub,super)检查sub类是否是super类的子类__getattribute__ 属性有和没有都会触发,有__getattribute__就不会再执行__getattr__,可以用raise抛出一个异常...

2018-04-06 13:39:54 193

原创 python反射

hasattr()  hasattr(object,name)判断object中有没有一个name字符串对应的方法或属性getattr(object,name,deauflt=None)  判断object中有没有name属性或方法,如果没有的话可以设置一个默认值,没有找到时会返回默认值没有的话会报错setattr(x,y,v)#设置的对象,设置的属性,设置属性对应的值delattr(x,y)#对...

2018-04-06 00:02:55 204

原创 面向对象的三大特诊:继承/封装/多态

接口继承:import abc             class Dad(metaclass=abc.ABCMeta):                    @abc.abstractmethod                    def read(self):                        pass#接口类中的方法不需要实现#定义好这个Dad类后,使用上面的语句将其转换为...

2018-04-05 23:14:24 150

原创 类和对象的知识点

类.__dict__:类的属性字典类.__name__:类的名字(字符串)类.__doc__:类的文档字符串类.__base__:类的第一个父类类.__bases__:类的所有父类构成的元组类.__module__:类定义所在的模块类.__class__:实例对应的类__init__是类的内置函数,在实例化对象时__init__函数就会自动运行静态属性使用@property在方法前面(self参数...

2018-04-05 15:48:12 219

原创 python内置模块

time模块时间戳time.time()#打印出的是秒数,从1970年开始算time.localtime()#显示的是结构化时间,当地时间time.gmtime()#显示的也是结构化时间,不过是世界标准时间将结构化时间转换成时间戳,time.mktime(time.localtime())将结构化时间转换成字符串时间,time.strftime("%Y-%m-%d %X",time.localti...

2018-04-03 14:41:31 1702

原创 含参装饰器

就是装饰器装饰的时候可以含有参数,装饰器函数在编写的时候在最外层函数中写入形参,再加一层函数返回,内层的函数可以调用外层的形参变量带参的比较少用,这里暂时不示例代码,以后再补...

2018-04-03 10:28:24 181

原创 闭包的概念

在一个嵌套函数中,内函数直接引用了外函数的临时变量,且外函数的返回值是内函数的引用,这样就构成了一个闭包在装饰器中比较常见,见过几次这个名词,不太清楚它的具体含义,记录一下,详细参见:https://www.cnblogs.com/Lin-Yi/p/7305364.html...

2018-04-03 00:27:50 199

原创 验证登陆来练习装饰器

user_dict = {'username':None,'login':False}#想不不修改调用方式的情况下加上验证的功能def auth_func(func): def wrapper(*args,**kwargs): if user_dict['username'] and user_dict['login']: res =func(...

2018-04-03 00:18:53 584

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除