自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

赵光亮 的博客

数据科学家的成长笔记,主要涉及python、Mysql、hadoop等主流数据处理工具及主流机器学习算法。

  • 博客(39)
  • 资源 (2)
  • 收藏
  • 关注

原创 【GridStudio】 从0到1 [搭建+启动] 神级编辑器GridStudio

GridStudio是一位外国小哥开源到Git的Web应用程序。他集成了Python优秀的科学计算编程及数据csv表格化的能力。准备条件:虚拟机+PC(任意系统)。本篇只提供从0-1的流程思路,具体操作需要读者自己实操!

2020-03-29 13:32:54 3777 1

原创 【Python-爬虫】某城租房数据全量采集项目

一位做学术研究的客户,需要我国各城市的住房出租的数据,包括住房位置、交通情况、房间类型、房屋面积、月租价格等信息。在探索链家、安居客、贝壳、五八等租房网站的后,发现五八的数据范围最广,最符合客户的学术要求。同时,五八的反爬机制也超强,比如房间的关键数据利用自定义字体强加密、IP的超低频率访问限制、数据错位渲染等。本文重在分享搭建爬虫的思路,由于一些原因,对五八的一些敏感技术会做特殊处理,愿理解。

2019-10-10 12:35:21 1348 2

原创 【Spark】GraphFrame

Spark GraphFrame提供了一个声明性API,可用于大型图上的交互式查询和独立程序。GraphFrame API中的主要编程抽象是一个GraphFrame。 Spark GraphFrame支持分布式属性图的图计算。这里先介绍基本框架、概念,后面丰富此组件的其他知识。

2019-11-27 09:55:49 951

原创 【Spark】DataFrame

Spark专门的数据结构RDD,是spark引擎的底层抽象,是spark生态系统中其他组件的基础。但它没有元数据信息,RDD程序也不易理解,臃肿,需要自己进行优化。为了弥补这个短板,引入了Spark Sql,它的编程抽象是dataframe,构建在saprk core上,为RDD提供元数据信息。由此,分布式计算引擎有了更多机会自动优化程序。当然,Spark Sql 还有其他更多的优势。

2019-11-27 09:54:17 280

原创 【Spark】RDD

RDD,弹性分布式数据集的简写,spark专门的数据结构。这里会结合代码来介绍。

2019-11-26 22:19:27 226

原创 【spark】核心概念+架构

掌握spark的核心概念、基本构架,有助于编写优质的spark程序。so,诞生了小落的这篇小小博客,梳理了spark的基本架构与核心概念。这篇会用txt文本截图的方式上传,不会多做解释。

2019-11-26 22:18:36 156

原创 【Spark】简介

spark是一个运行速度快、有多种运行模式,通用且容易使用的与 Hadoop 相似的开源集群计算环境。不同之处在于Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。虽然如此,但它本质上是hadoop的补充。

2019-11-26 22:17:54 586

原创 【HBase】分布式储存系统

HBase是一个高可靠性、高性能、可伸缩的分布式存储系统,它构建在hdfs上,是典型的key/value系统,还具有松散稀疏的表结构,是高吞吐低延时的列族存储。能够实现海量数据的单个记录实时查询。

2019-11-24 17:16:04 1440

原创 【Hive】基于hadoop的大数据仓库

hive,基于hadoop的大数据仓库。定义了类SQL查询语言,可被用来执行专门的海量数据集查询和数据汇总,以及执行海量数据分析。

2019-11-24 11:17:13 506

原创 【Hdfs】分布式储存系统

hdfs是分布式数据储存的基础,具有高容错性、高可靠性、高可扩展性、高获得性、高吞吐率等特征。为超大数据集的应用处理带来了极大的便利。本文主要从hdfs结构上介绍,有不妥之处恳望指出,笔者会校对加以纠正,谢谢!

2019-11-23 21:40:03 1009

原创 大数据技术脉络

大数据技术脉络,是笔者在学习大数据技术后,按自己的理解形成的个性化大数据技术框架,旨在构建自己的大数据知识体系。其中或有不足之处,会反复校正,也希望您在评论区加以批评,非常感谢!

2019-10-24 22:16:15 350

原创 【Python】信用评级项目——个人评分A卡制作

评分卡模型通常有四个类型,这里主要基于kaggle2011年的竞赛数据,制作个人主体评分卡。其他类型评分卡模型的制作大同小异。

2019-10-19 21:28:48 1828 1

原创 【统计调查分析报告】2018 年贵州省食品安全满意度影响因素的研究

第八届全国大学生市场调查与分析大赛作品。团队成员:赵光亮、杨陶、杨福建、 何德艳、冉玉芳;指导教师:凌巍;获奖:国三。

2019-10-18 14:36:58 373

原创 【算法8】BP神经网络

为 单层感知机——> 多重感知机 ——> BP神经网络 推导的手稿记录。

2019-10-16 12:59:55 482

原创 【算法7】集成算法

集成学习(Ensemble learning)就是将若干个弱分类器通过一定的策略组合之后产生一个强分类器,是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果,使模型表现更稳定可靠。

2019-10-06 10:39:35 271

原创 【算法6】K-Means聚类

聚类属于无监督分类算法。用得较多的有基于距离的聚类——K-Means,基于密度的聚类——DBSCAN。可以用作数据降维、数据离散压缩、客户分群等用途。

2019-10-05 22:50:43 296

原创 【算法5】朴素贝叶斯

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据 集,首先基于特征条件独立假设学习输入/ 输出的联合概率分布;然后基于此模型,对给定的输入 x利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法。

2019-10-03 14:58:42 177 2

原创 【算法4】决策树

决策树是一种树结构,属于有监督无参数学习方法。基于信息学理论中熵的概念,决策树的经典算法有ID3、C4.5、Cart(基尼准则)算法。

2019-10-01 18:34:29 151 1

原创 【算法3】 KNN

最简单的机器学习算法——K-近邻算法(K-Nearest Neighbor),缩写KNN,通过计算距离来判定样本是否所属同一类。

2019-10-01 13:48:17 165 1

原创 【算法2】Logistic回归

多元线性回归的优点是可解释性强,计算速度快,模型稳定,主要解决因变量为连续型的业务问题。Logistic回归是由线性回归“演化”而来,自然具备线性回归的优点,主要解决因变量是二(多)分类的业务问题。前面的文章 《【R】基于Logistic回归的初始信用评级》对Logistic回归做过一些介绍,这里再进行一些补充。

2019-10-01 10:41:42 292 1

原创 【算法1】多元线性回归

多元线性回归模型的可解释性强,模型泛化能力比较好。使得它在实际商业环境中使用广泛。这里推出多元回归模型的个人见解,其中若有纰漏之处,恳请各位看官“怒怼”,小落必然“痛改前非,再接再厉”。大家一起学习,共同进步,加油~~~

2019-09-30 14:02:15 2767 1

原创 【R】决策树的code记录

本文只记录利用R语言加载第三方包实现各类决策树算法的代码,不言其他。

2019-09-28 20:47:08 256 5

原创 【模型选择】从0到1的数据价值实现需要数据分析师做些什么?

从0到1的数据价值实现需要数据分析师做些什么?将Boss的需求放在左肩,把业务理解稳在右肩。然后?跳动轻快的老拇指敲着键盘,玩弄数据于股掌间,亦或者把自己拔高到超三维空间,又或者把数据压缩到低维空间。反正要做的事挺多,具体的先看文章了~~~

2019-09-27 23:04:46 225

原创 【小程序链接】***想要的 都不在这里***

你要的 在这里……

2019-09-26 20:11:12 213 3

原创 【R】快速实现统计推断

R 作为专业的统计软件,在数据分析中占有一些独特的优势。比如可以快速的进行数据抽样、统计推断、建立统计模型,可视化等。当然,对于全记录数据的大数据处理绝对不是目前R语言擅长的,R正在摆脱这一困境。这篇文章会介绍R怎样快速实现统计推断,也就是说对理论的阐述不会那么精致了。

2019-09-26 17:27:41 1182 1

原创 【R】基于Logistic回归的初始信用评级

逻辑回归的因变量常为二元分类变量,自变量可以是分类变量也可以是连续变量。这也贴近现实中的问题逻辑,根据一类群体的历史数据,来预测一个样本在具备某些特征情况下某事件发生与否。如银行预测客户是否会违约,生物实验预测基因是否会变异,医学临床预测某疾病是否会恶化等。文章用R语言来完成Logistic回归构建初始信用评级模型。

2019-09-26 14:25:08 1390 1

原创 【Pyton】支持向量机(SVM):对天气的预测准确率很高吗?

本文通过巧妙的预处理和特征工程来介绍在现实数据集上如何做数据预处理,或者说有哪些预处理的方式和思路。预测天气是一个非常非常困难的主题,因为影 响天气的因素太多,而Kaggle的这份数据也不负众望,是一份非常难也非常难得的数据集,难到用一般的机器学习算法(如SVM,LR)在这个数据集上都不会有太好的结果。好的数据预处理和模型的选择与调优就是重点了。那么,看文章的吧!

2019-09-20 20:14:01 5807

原创 【Python】爬虫案例——租房网站房间信息的全量抓取

作为数据分析师,爬虫是必备的技能之一。如何从流量大信息繁的互联网上获取数据?最好的回答就是python爬虫。当然,爬虫的工具很多,只是python的可塑性更强。本文以一家租房网站数据的爬取为例,说说python爬虫。

2019-09-12 22:35:15 1931

原创 【Python】数据清洗之黑白双侠——numpy&pandas库

python的numpy库对数据的一些处理会出现“短路”,比如对缺失值的乱判断、对数字类型的乱转换,但它的其他模块却很有用,如random模块等;python的pandas库可以认为是numpy的改进升级版,它解决了numpy的问题,提供了更高级数据框对象等数据结构及方法。在数据清洗上,将numpy、pandas库配合使用、相辅相成,那么称其组合为黑白双侠是无过之而有不及。

2019-09-02 20:41:14 396 1

原创 【Python】Random模块——验证码制导器

python 的 random 模块主要用于产生随机对象。该模块下有很多函数,调用他们可以使对象是单个值、序列、数组。本文开门见山的介绍random的下属函数功能,然后利用函数定义验证码制导器。

2019-08-24 12:05:59 228 1

原创 【Power BI desktop 】在汽车行业的运用——车企决策仪

Power BI作为一款商业智能软件,对大数据的操纵能力非常强大。文章以车企决策仪制作为例,介绍其在商业决策中的重要作用。当然,文章的框架不能作为数据分析的流程参考,小编只是记录工作和学习中的所得,排版也就显得随意。

2019-07-31 19:05:52 1042 3

原创 【Power BI】精要 之 Power Query

Power Query 最重要的就是M函数编写,M函数是Power Query的函数语法,可以帮助我们灵活地完成数据导入、整合、加工处理等数据处理工作。M函数占据了Query数据处理能力的80%,界面操作仅仅占20%。

2019-07-27 08:49:40 3144 1

原创 【Power BI】分析仪在餐饮业中的应用

什么是Power BI?相信下面的360百科会给你满意的答复,我这里仅做简单的阐述。它的全称叫Power Business Intelligence,即商业智能增强版。由微软为Office组件提供的一套商业智能工具,包含四个插件:查询增强版(Power Query)、建模增强版(Power Pivot)、视图增强版(Power View)、视图增强版(Power View),突破了Excel表格结构数据的短板。基本满足现代商业数据的业务分析需求,方便实用高效。

2019-07-24 23:54:09 1274 6

原创 【EXCEL】在数据分析中的使用三

    excel的控表插件、可视化图表等功能可制作一些更炫酷的动态可视化图表,让数据向需求方更直观的呈现出要表达的信息。下面通过一个小案例来介绍:下图是一个随机生成的不同国家多年连续的销量数据,怎样有选择的动态展示各国随时间而变化的销量趋势?    利用excel函数公式=INDEX(B6:L13,INDIRECT("A18"),)调取数据,控件主要用于检索不同的国家。怎样插入控件,选择数据...

2019-07-21 15:30:47 278 1

原创 【MYSQL】存储过程在批量处理数据表中的应用

文章以MYSQL存储过程批量添加、删除数据表字段为例,展现了MYSQL存储过程在数据分析中快速对大批量数据进行重复性操作的能力,大幅度提升数据表处理效率。

2019-07-20 18:37:40 640 1

原创 【MYSQL】简介

在数据分析师看来,MYSQL就是一个简单而又必不可少的工具。只要能精准按业务需求在数据库里存数据、提取数据,为业务数据分析提供源数据就足矣!

2019-07-20 10:45:27 325 1

原创 【EXCEL】在数据分析中的使用二

本文通过一个实际案例来介绍EXCEL中的Index、Match、Offset、Countif、Vlookup函数在业务数据分析中的强大功能:理清业务需求,对实际数据的数据构成进行分解,组装嵌套上对应功能的基础函数,并将结果通过图表可视化展示,满足业务数据分析的需求。

2019-07-19 22:21:29 1064 1

原创 表结构数据介绍

表结构数据的介绍对表结构数据的理解越清晰,对表结构数据进行处理的工具的使用就越得心应手。比如用MYSQL、SQL sever 等软件对“大”数据进行清洗等,都会有极大的帮助!下面是落花生对表结构数据的认识:何为表结构数据?它就是数据库结构的数据。认识它要注意以下几点:1.以整列数据为基本计算单位;2.不能在行、特定值处进行操作;3.行称为“记录”,列称为“字段”;4.字段的集合称为表...

2019-07-15 19:37:03 1154 1

原创 【EXCEL】在数据分析中的使用 一

@[TOC]excel在数据分析中的使用EXCEL常用技巧 -1嗨,您好! 这里主要介绍EXCEL中与数据分析中相关的组合键使用技巧及相关函数的使用方法。内容不多,下面我们来一起看看,希望对您有帮助:组合键组合键功能ctrl+shift+方向键在连续数据表中,向某个方向或区域快速选取数据ctrl+shift+home/end回到数据表起始位置/查找数据表末位置...

2019-07-10 23:44:19 354 1

信用评分卡.pdf

资源文档为PDF格式,里面介绍了各类型评分卡制作的主体流程注意事项等内容,对评分卡模型制作中的流程查询价值很高。

2019-10-19

zgl2018年贵州省食品安全满意度影响因素的调查 .pdf

为第八届全国大学生市场调查与分析大赛获奖作品《民以食为天 食以安为先——2018年贵州省食品安全满意度影响因素的调查》。包含课题选取,问卷设计与修改,问卷发放与回收,数据录入与清洗,模型建立与评估、模型的应用这一整套流程,可供统计调查分析人员参考,价值非常高。

2019-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除