数据挖掘
朱元禄
这个作者很懒,什么都没留下…
展开
-
Python数据挖掘-文本挖掘
文本挖掘概要搞什么的?从大量文本数据中,抽取出有价值的知识,并且利用这些知识更好的组织信息的过程。目的是什么?把文本信息转化为人们可利用的知识。举例来说,下面的图表利用文本挖掘技术对库克iphoneX 发布会的内容进行分析,得出此次发布会报告中的几个常青词汇、词频的趋势变化情况。(一)语料库(Corpus) 在python中,如何根据以往的文档文件搭建一个语料库?1.什么是语料库语料库原创 2017-09-13 11:15:19 · 32972 阅读 · 0 评论 -
Python回归分析五部曲(三)—一元非线性回归
(一)基础铺垫一元非线性回归分析(Univariate Nonlinear Regression)在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条曲线近似表示,则称为一元非线性回归分析。一元二次方程:y=a2x2+a1x1+a0x0y = a_2x^2 + a_1x^1 + a_0x^0 一元三次方程:y=a3x3+a2x2+a1x1+a0x0y = a_3x^3 + a原创 2018-01-16 11:29:57 · 9364 阅读 · 0 评论 -
如何建立投资模型
建立投资模型-辅助投资决策理论基础-正负向情绪分析网络上有些舆情是来自于微博等社交网络,建立投资模型的逻辑使用微博正负评情绪指标判断进场点;正负向情绪分析 是否有效?鸡生蛋还是蛋生鸡的问题是因为投资人的情绪不好才导致股票下跌,还是因为股票导致情绪不好;原创 2018-01-24 09:42:52 · 3306 阅读 · 0 评论 -
Python回归分析五部曲(一)—简单线性回归
回归最初是遗传学中的一个名词,是由英国生物学家兼统计学家高尔顿首先提出来的,他在研究人类身高的时候发现:高个子回归人类的平均身高,而矮个子则从另一方向回归人类的平均身高;整体逻辑回归分析(Regression Analysis)研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量y与影响它的自变量 x_i(i=1,2,3… …)之间的回归模型,来预测因变量y的发展趋向。回归分析的分原创 2017-12-23 10:10:51 · 38717 阅读 · 0 评论 -
Python回归分析五部曲(二)—多重线性回归
基础铺垫多重线性回归(Multiple Linear Regression)研究一个因变量与多个自变量间线性关系的方法在实际工作中,因变量的变化往往受几个重要因素的影响,此时就需要用2个或2个以上的影响因素作为自变量来解释因变量的变化,这就是多重线性回归;多重线性回归模型1.模型y=α+β1x1+β2x2+...+βnxn+ey = α + β_1 x_1 + β原创 2018-01-04 10:55:36 · 5247 阅读 · 0 评论 -
决策树算法的Python实现—基于金融场景实操
决策树是最经常使用的数据挖掘算法,本次分享jacky跟你深入浅出,讲透决策树算法基本概念决策树(Decision Tree)它通过对训练样本的学习,并建立分类规则,然后依据分类规则,对新样本数据进行分类预测,属于有监督学习。优点1)决策树易于理解和实现使用者不需要了解很多的背景知识,通过决策树就能够直观形象的了解分类规则;2)决策树能够同时处理数值型和非数值型数据在相对短的时间内,能够对大型原创 2017-11-03 09:22:46 · 3354 阅读 · 0 评论 -
数据挖掘之提取关键词
关键词关键词快速了解文档内容、把握主题的重要方式。广泛应用到新闻报道、科技论文等领域,以方便人们高效的管理和检索文档一篇文档的关键词一般是几个词或短语,作为对该文档主要内容的提要一个简单的关键词提取举例使用jieba包中的extract_tags方法原创 2017-10-06 12:12:06 · 3693 阅读 · 0 评论 -
Python地理信息数据可视化
地图基础铺垫定义地图(map):是指按一定的比例运用符号、颜色、文字标记等描绘显示地球表面的自然地理、行政区域、社会经济状况的图形。地图绘制步骤绘制需要展示的地图,获取地图对象,获取每个区域的名字及顺序;在每个区域的名字和顺序后面,加上我们需要展示的数据以及经纬度;根据数据的大小,设置每个区域展示的颜色的深浅,以区分每个区域(对数据进行标准化处理,使用[0,1]的值,代表颜色的透明度);原创 2017-10-04 20:53:26 · 6540 阅读 · 0 评论 -
Python数据可视化
散点图基础铺垫定义散点图(scatter diagram):是以一个变量为横坐标,另一个变量为纵坐标,利用散点(坐标点)的分布形态反映变量关系的一种图形。它是探索数值型变量数据关系的有力工具;散点图直观简便,不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度,因此散点图一般和相关分析,回归分析结合使用。散点图绘制函数plot(x,y,’.’,color=(r,g,b))plot参原创 2017-10-03 14:58:43 · 1678 阅读 · 0 评论 -
用逻辑回归模型解决互联网金融信用风险问题
(一)基础铺垫逻辑回归(Logistic Regression)针对因变量为分类变量而进行回归分析的一种统计方法,属于概率型非线性回归。优点:算法易于实现和部署,执行效率和准确度高;缺点:离散型的自变量数据需要通过生产虚拟变量的方式来使用;(二)底层原理及逻辑在线性回归中,因变量是连续变量,那么线性回归能够根据因变量和自变量之间存在的线性关系来构造回归方程;但是,一旦原创 2018-01-24 11:28:35 · 1987 阅读 · 0 评论