- 博客(19)
- 资源 (6)
- 收藏
- 关注
转载 sklearn_逻辑回归
1 概述1.1 经典的二分类算法(理论)线性回归模型Y=β0+β1X+⋯+βnXnY=\beta _0+\beta _1X+\cdots +\beta _nX_nY=β0+β1X+⋯+βnXn通常是处理因变量 Y 是连续变量的问题,如果因变量是定性变量 (比如:yes 或 no,0 或 1,好或坏,输或赢),线性回归模型就不再适用了,需采用逻辑回归模型解决。逻辑回归算法:虽然名字中带有回归两个字,但它却不是回归算法,而是一个经典的二分类算法。换句话说,逻辑回归就是用类似回归的思
2020-06-30 21:43:30 554
转载 sklearn_降维算法
1 概述1.1 维度针对每一张表,维度指的是样本的数量或特征的数量,一般无特别说明,指的都是特征的数量。除了索引之外,一个特征是一维,两个特征是二维,n个特征是n维。降维算法中的”降维“,指的是降低特征矩阵中特征的数量。降维的目的:让算法运算更快,效果更好,数据可视化1.2 sklearn中的降维算法——decomposition2 PCA与SVD在降维的过程中,即减少特征的数量,又保留大部分有效信息将那些带有重复信息的特征合并,并删除那些带无效信息的特征逐渐创造出能够代表原特征矩阵大
2020-06-27 16:15:38 903
原创 Web Scraper
北京人才网第一页链接:https://jobs.51job.com/beijing/p1/第二页链接:https://jobs.51job.com/beijing/p2/爬取前5页
2020-06-23 17:33:29 913 1
转载 sklearn_数据预处理和特征工程
参考:菜的sklearn课堂文章目录1 概述1.1 数据预处理与特征工程1.2 sklearn中的数据预处理和特征工程2 数据预处理 Preprocessing & Impute2.1 数据无量纲化(1)数据归一化(2)数据标准化2.2 缺失值2.3 处理分类型特征:编码与哑变量2.3.1 编码(1)处理标签——分类标签==>分类数值(2)处理特征——分类特征==>分类数值2.3.2 哑变量1 概述1.1 数据预处理与特征工程数据不给力,再高级的算法都没有用。现实中的数据…
2020-06-23 13:51:45 425
转载 Python爬取QQ音乐评论数据
转载自: CDA数据分析师文章目录1、数据获取2、数据处理3、数据可视化1、数据获取https://y.qq.com/n/yqq/album/0009C3rp3Kfwg0.html#comment_box评论区的内容是被封装在json中复制此条json数据,放到在线json解析中分析数据结构comment_list = json_data['comment']['commentlist']# 昵称nick_name = [i.get('nick') for i in comm
2020-06-21 14:37:31 6397 9
转载 sklearn_随机森林(RF)
参考:菜菜的sklearn课堂文章目录1 概述1.1 集成算法概述1.2 sklearn中的集成算法2 随机森林分类器 RandomForestClassifier2.1 参数2.2 重要参数2.2.1 控制基评估器的参数2.2.2 n_estimators2.2.3 random_state2.2.4 bootstrap & oob_score2.2.5 重要属性和接口3 RandomForestRegressor3.1 随机森林回归应用—填补缺失值(1)使用均值进行填补(2)使用 0 进行
2020-06-19 22:24:46 4592
原创 干预分析模型预测法
《统计预测与决策》第五版_徐国祥文章目录一、干预分析模型二、干预分析模型的基本形式(1)干预变量形式(2)干预事件形式三、单变量干预分析模型的识别与估计(1)干预模型的构造(2)干预效应的识别四、干预模型建模步骤一、干预分析模型干预的含义:时间序列经常会受到特殊事件及态势的影响,诸如国内经济政策或经济规则的变更、国际政治局势的骤变,以及节假日、罢工、贱卖、促销之类事件的影响等。干预分析广泛用于描述经济政策的变化或突发事件对经济环境、经济过程或结果的具体影响的定量分析。研究干预分析的目的:从定量分
2020-06-18 17:49:30 10230 1
原创 综合评价方法之秩和比法(RSR)
秩和比(RSR)是指分析方法可用于评价多个指标的综合水平情况,其实质原理是利用了RSR值信息进行各项数学计算,RSR值介于0~1之间且连续,通常情况下,该值越大说明评价越‘优’。秩和比(RSR)分析法广泛应用于医疗卫生领域的多指标综合评价,使用简单方便。比如使用RSR法综合评价10个医院的医疗水平情况并且进行医疗水平排名和分档次,也或者利用RSR法综合评价10个医生的医疗能力并且进行排名和分等级档次等。...
2020-06-16 21:25:31 43368 7
原创 sklearn_决策树
什么是决策树?定义(决策树):分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。决策树学习算法的最大优点是,它可以自主学习,它属于有监督学习。从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。决策树学习的主要算法建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有以下三种算法。算法核心ID3信息熵C4.5-
2020-06-16 16:08:25 1456
原创 客观赋权法——CRITIC权重法
CRITIC权重法是一种客观赋权法。其思想在于用于两项指标,分别是对比强度和冲突性指标。对比强度使用标准差进行表示,如果数据标准差越大说明波动越大,权重会越高;冲突性使用相关系数进行表示,如果指标之间的相关系数值越大,说明冲突性越小,那么其权重也就越低。权重计算时,对比强度与冲突性指标相乘,并且进行归一化处理,即得到最终的权重。2、理论CRITIC权重法利用了数据的波动性和相关关系情况,并非数字越大就说明越重要,完全利用数据自身的客观属性,便于进行科学评价。在进行CRITIC分析之前,通常需要对数据进行
2020-06-14 16:00:39 122505 32
原创 客观赋权法——变异系数法
一、变异系数法的概念变异系数法是根据统计学方法计算得出系统各指标变化程度的方法,是一种客观赋权法。根据该方法变化差异较大的指标权重较大,变化差异较小的指标权重较小,从而根据指标的统计学规律确定其重要程度。变异系数法是一种较为客观的方法,能够客观的反应指标数据的变化信息,该方法能够比较客观的求出各指标的权重。根据各评价指标当前值与目标值的变异程度来对各指标进行赋权,当各指标现有值与目标值差距较大时,说明该指标较难实现目标值,应该赋予较大的权重,反之则应该赋予较小的权重。二、变异系数法的步骤(1)原
2020-06-13 17:56:58 25915 3
原创 Class类
Class类类——人、狗…等等类中有属性、方法——人说话,人走路、狗叫…等等init 构造函数def init(self,name,pwd): #称为 构造函数,自动执行这个__init__函数类中每一个函数(属性或方法 都有一个参数self ,这个self就是指的类,这也是与普通函数的主要区别)name="tg"pwd="123456"class person(object): # 初始化,当创建类的实例对象时,自动执行这个__init__函数,相当于内置函数,里面的变量属于公有变
2020-06-12 20:25:04 3699
原创 统计学
第一章 总论(1)统计学含义:统计学是研究如何收集、整理、分析数据,并从中作出正确推断的方法论学科。研究对象:统计学的研究对象是大量现象的数量方面,包括数量特征和数量关系。研究的特点:统计学研究的特点包括:数量型、总体性、变异性(现象中各单位是存在差异的)。研究方法:大量观察法、实验设计法、统计分组法、综合指标法、统计模型法、统计推断法。(2)描述性统计和推断统计从统计方法的构成来看,统计学可以分为描述性统计和推断统计描述性统计:研究如何收集、整理、分析数据,图形图标描述、概括性分析
2020-06-12 20:22:32 2006
原创 利用python爬取博客信息并保存在Excel中
只放代码import re,json,requestsfrom lxml import etreeimport xlwt# 分页# 找页码变化的规律for i in range(1,6): base_url = 'https://blog.csdn.net/qq_42374697/article/list/%s'%(i) headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap
2020-06-12 12:14:13 477
原创 Scrapy框架
一、Scrapy简介Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。功能:爬虫框架,可以简单快速的实现一个爬虫。优势:爬取速度很快,底层是通过异步框架来实现的。(1)spiders组件:爬虫组件爬虫程序中,主要可以总结为两部:获取url请求,返回response处理(2)Scrapy Engine(引擎):负责Spider
2020-06-11 18:14:30 332
原创 时间序列之AR、MA、ARMA、ARIMA模型
参考:《时间序列分析—基于R王燕 编著》一、时间序列分析时间序列分析就是对时间序列进行观察、研究,寻找它变化发展的规律,预测它将来的走势。二、时间序列的预处理对于一组观察值序列,首先要对它的平稳性和纯随机性进行检验,根据检验的结果可以将序列分为不同的类型,对不同类型的序列采用不同的分析方法。自协方差函数γ(t,s)=E[(Xt−μt)(Xs−μs)]\gamma \left( t,s \right) =E\left[ \left( X_t-\mu _t \right) \left( X_s
2020-06-10 17:56:37 4780 1
原创 灰色预测 GM(1,1) 模型及Python、R语言实现
二、GM(1,1)模型2.1 GM(1,1)模型概述灰色预测经常用来解决数据量较少且不能直接发现规律的数据。对于包含不确定信息的序列,灰色预测方法通过对原始数据进行处理,使之转化为灰色序列,并建立微分方程模型模型GM(1,1)模型是灰色预测理论的基本模型,也是灰色系统理论中运用最广泛的一种动态预测模型,模型由一个单变量的一阶微分方程构成。GM(1,1)模型适合对“少数据,贫信息”的对象进行中短期预测2.2 GM(1,1)数据处理方法在灰色系统中,能获得的信息非常有限,且不易发现内部规律,因此我们需
2020-06-08 10:10:40 20145 2
原创 灰色聚类评价模型
一、灰色系统理论灰色是外延明确,內延不明确1.1 基本概念信息完全已知——白信息完全未知——黑部分信息明确,部分信息不明确——灰1982年,中国学者邓聚龙教授创立灰色系统理论,是一种研究少数据,贫信息不确定性问题的新方法。该理论以“部分信息已知,部分信息未知”的“少数据”,“贫信息”不确定性系统为研究对象,主要通过对“部分”已知信息的挖掘,提取有价值的信息,实现对系统运行行为、演化规律的正确描述和有效监控。不确定性的系统四种常用的研究方法灰色系统理论 (贫信息不确定)模糊数学 (认知不确
2020-06-07 21:33:31 18314 10
原创 主观赋权法(AHP)和客观赋权法(熵值法)组合权重法
主观赋权法(AHP)在根据决策者意图确定权重方面比客观赋权法(熵权法)具有更大的优势,但客观性相对较差,主观性相对较强;而采用客观赋权法有着客观优势,但不能反映出参与决策者对不同指标重视程度,并且会有一定的权重和与实际指标相反的程度。针对主客观赋权方法的优缺点,我们还力求将主观随机性控制在一定范围内,实现主客观赋权中的中正。客观方面。指标赋权公正,实现了主客观内在统一,评价结果真实、科学、可信。因此,在对指标进行权重分配时,应考虑指标数据之间的内在统计规律和权威值。给出了合理的决策指标赋权方法,即采用
2020-06-07 09:40:18 71871 13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人