关闭

决策树算法的Python实现—基于金融场景实操

决策树是最经常使用的数据挖掘算法,本次分享jacky跟你深入浅出,讲透决策树算法 基本概念 决策树(Decision Tree)它通过对训练样本的学习,并建立分类规则,然后依据分类规则,对新样本数据进行分类预测,属于有监督学习。 优点1)决策树易于理解和实现使用者不需要了解很多的背景知识,通过决策树就能够直观形象的了解分类规则; 2)决策树能够同时处理数值型和非数值型数据在相对短的时间内,能够对大型...
阅读(31) 评论(0)

《特征工程三部曲》之三:维度压缩

当特征选择完成之后,就可以直接训练模型了,但是可能由于特征矩阵过大导致计算量大,训练时间长的问题;因此,降低特征矩阵维度,也是必不可少的,主成分分析就是最常用的降维方法,在减少数据集的维度的同时,保持对方差贡献最大的特征,在sklearn中,我们使用PCA类进行主成分分析。 主成分分析(Principal Components Analysis) PCA API有一个参数用于设置主成分的个数:pca...
阅读(1367) 评论(0)

《特征工程三部曲》之二:特征选择

什么特征选择 特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的...
阅读(2940) 评论(0)

《特征工程三部曲》之一:数据处理

要理解特征工程,首先要理解数据(Data)和特征(Feature)的概念概念 特征工程(Feature Engineering)其本质上是一项工程活动,它目的是最大限度地从原始数据中提取特征以供算法和模型使用。 特征工程在数据挖掘中有举足轻重的位置 数据领域一致认为:数据和特征决定了机器学习的上限,而模型和算法只能逼近这个上限而已。特征工程重要性:特征越好,灵活性越强; 特征越好,模型越简单...
阅读(7329) 评论(0)

数据挖掘之提取关键词

关键词关键词 快速了解文档内容、把握主题的重要方式。 广泛应用到新闻报道、科技论文等领域,以方便人们高效的管理和检索文档 一篇文档的关键词一般是几个词或短语,作为对该文档主要内容的提要 一个简单的关键词提取举例 使用jieba包中的extract_tags方法...
阅读(87) 评论(0)

Python地理信息数据可视化

地图基础铺垫定义 地图(map):是指按一定的比例运用符号、颜色、文字标记等描绘显示地球表面的自然地理、行政区域、社会经济状况的图形。 地图绘制步骤 绘制需要展示的地图,获取地图对象,获取每个区域的名字及顺序; 在每个区域的名字和顺序后面,加上我们需要展示的数据以及经纬度; 根据数据的大小,设置每个区域展示的颜色的深浅,以区分每个区域(对数据进行标准化处理,使用[0,1]的值,代表颜色的透明度);...
阅读(123) 评论(0)

Python数据可视化

散点图基础铺垫定义 散点图(scatter diagram):是以一个变量为横坐标,另一个变量为纵坐标,利用散点(坐标点)的分布形态反映变量关系的一种图形。它是探索数值型变量数据关系的有力工具; 散点图直观简便,不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度,因此散点图一般和相关分析,回归分析结合使用。 散点图绘制函数 plot(x,y,’.’,color=(r,g,b)) plot参...
阅读(154) 评论(0)

利用django框架,手把手教你搭建数据可视化系统(一)

如何使用django去构建数据可视化的 web,可视化的结果可以呈现在web上。使用django的MTV模型搭建网站基础铺垫—MTV模型Created with Raphaël 2.1.0Request服务器(Djangoweb)Response首先,要搞清楚我们去访问服务器,服务器返回信息的行为。1)Request向服务器(Djangoweb)发起请求 点击页面,或查看网页信息,都是这个过程 2)...
阅读(376) 评论(0)

Python数据挖掘-文本挖掘

文本挖掘概要搞什么的? 从大量文本数据中,抽取出有价值的知识,并且利用这些知识更好的组织信息的过程。 目的是什么? 把文本信息转化为人们可利用的知识。 举例来说,下面的图表利用文本挖掘技术对库克iphoneX 发布会的内容进行分析,得出此次发布会报告中的几个常青词汇、词频的趋势变化情况。(一)语料库(Corpus) 在python中,如何根据以往的文档文件搭建一个语料库? 1.什么是语料库语料库...
阅读(200) 评论(0)

看透“0”、“1”逻辑,轻松解决Python中文乱码

字符编码为什么只有0和1计算机的底层存储是怎么构成的?只由0和1组成计算机只认识二进制的0和1,为什么?计算机底层就是电路,电路小到最小,就只有2种状态:通电和不通电。通电表示一种状态,不同电表示另外一种状态。# 计算机是美国发明的,发明时没有想到计算机会火遍全球,美国人的语言就是英语,英语是不是就是键盘上26个字母加上字符,和数字构成的,所有咱们用python写代码的时候,代码里只能包含上述的...
阅读(149) 评论(0)

第四章 Python数据分析-描述性分析

Python基础统计 统计函数:describe() 常用的统计指标函数: 统计函数 注释 (@数据分析-jacky) size 计算 sum 求和 mean 平均值 var 方差 std 标准差...
阅读(76) 评论(0)

Python图形用户界面-Tkinter

Tkinter是什么python 特定的GUI界面,是一个图像的窗口,tkinter是python 自带的,可以编辑的GUI界面,我们可以用GUI 实现很多一个直观的功能,如何想开发一个计算器,如果只是一个程序输入,输出窗口的话,是没用用户体验的。所有开发一个图像化的小窗口,就是必要的。Label(标签)&Button(按钮)Labelimport tkinter as tk#第1步,建立窗口win...
阅读(255) 评论(0)

数据科学风云之互联网金融

未来的十年,数据支撑做生意。 五年之内,我们竞争的是机器人, 机器人只有一种道德,叫机器道德。直播是一种生活方式,是一种通向未来的沟通方式。互联网金融数据,可能不如电商及内容分发行业的频率高,但是互金行业数据传递给我们的信息会更丰富,也更有价值,对从业人员来讲也更有研究的价值。数据科学在金融场景有哪些技术与应用? 未来,数据在互联网金额领域会有怎样的发展?非常高兴也非常荣幸在直播平台跟大家做这...
阅读(91) 评论(0)

Linux

Linux优点linux不是给小白设计的 稳定 window会蓝屏,卡掉,linux不会,插上电运行好几年都不会出问题。 24小时常年运行,非常的稳定。 安全针对linux攻击的要少很多 开源我写出来了,免费用,遇到技术难题,需要开发者帮你支持的时候,就要收费了 学习linux安装系统问题 装双系统(不推荐) 通过VmWare workstation 软件直接在windows系统上再装一个lin...
阅读(124) 评论(0)

随笔

主题-数据科学今天跟大家直播探讨的主题就是数据科学,探讨数据科学在公司中的应用,数据科学的前景,以及要成为数据科学从业者的一个规划。 数据科学,就是运用一些科学化的方法,去了解数据,运用数据。案例:AlphaGo 大家都知道AlphaGo战胜顶尖棋手的故事,那么考考大家几个问题? 1、AlphaGo是哪个公司创造的?——深度思维(DeepMind),是一家英国公司,仅仅成立五年 2...
阅读(67) 评论(0)

第三章 python数据规整化

本章概要-去重-缺失值处理去重 把数据结构中,行相同的数据只保留一行 函数语法:drop_duplicates() #导入pandas包中的read_csv函数 from pandas import read_csv df=read_csv('路径')#找出行重复的位置 dIndex=df.duplicated()#也可根据某些列,找出重复的位置 dIndex=df.duplicated('age'...
阅读(141) 评论(0)

第二章 Python数据导入

本章概要 数据导入 数据导入数据存储的两个地方: 文件CSV、Excel、TXT(学习层面) 数据库Mysql、Access、SQL Server 导入CSV文件CSV文件第一行是列名,第二行到最后一行是数据,列与列之间用逗号分隔的数据文件 使用read_csv函数导入CVS文件 read_csv函数用法常用参数,路径:read_csv(file) read_csv(file,encoding)如果...
阅读(107) 评论(0)

利用Python构建时间序列模型解决实际问题的正确姿势

要本着应用到实际工作中目的去学时间序列分析,才能深入浅出的学会,不要纠结于理论,只听我的,我有信心说明白。 本章内容趋势分析序列分解序列预测序列分解统计学基础铺垫划分时间序列按照季节性划分: 季节性时间序列 非季节性时间序列 时间序列包含什么 趋势部分 不规则部分 季节性部分 非季节性时间序列 √ √ 不包含 季节性时间序列 √ √ √ 特别强调:这里的...
阅读(150) 评论(0)

开篇序(必看)

内容概要前提:目前从事或打算转行从事数据分析(挖掘):(A) 真的该学Python吗(B) 学到走火入魔还浑然不知的小白(C) 该怎样学习Python(D) 如何利用Python进行数据分析...
阅读(71) 评论(0)

第一章:Python数据分析前的基础铺垫

本节概要- 数据类型- 数据结构- 数据的常用操作方法数据类型基础铺垫定义 我们搞数据时,首先要告诉Python我们的数据类型是什么 数值型:直接写一个数字即可 逻辑型:True,False(首字母大写) 字符型:单引号、双引号、三引号 赋值 用等号给变量贴标签 变量-赋值的对象是变量 命名规则 命名规则 逻辑型(Logical)布尔值:只有两种取值(0和1,True和False)运算规则...
阅读(361) 评论(0)
22条 共2页1 2 下一页 尾页
    个人资料
    • 访问:16412次
    • 积分:385
    • 等级:
    • 排名:千里之外
    • 原创:22篇
    • 转载:0篇
    • 译文:0篇
    • 评论:0条
    文章分类