自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(77)
  • 资源 (1)
  • 收藏
  • 关注

原创 谈谈转行数据分析以及工作的心得

由于两个月前写了一篇文章叫《自己找数据分析工作时所犯的错误》,然后这期间就一直有人问我找到工作了吗?面试的时候,面试官都是问你的什么呢?你从事数据分析工作之后主要干什么呢?所以想在这里为大家分别解答下。首先回答下,我确实是找到数据分析工作了(感谢我遇到的贵人)。这是我辞职回到家写的一篇文章----为什么转行数据分析。其中写了一个计划,让自己有了方向,希望大家也尽量写一个详尽的计划,这在学习的过...

2019-08-02 15:38:43 953

原创 股票数据分析案例第一篇总结之Git使用

此系列文章是《数据蛙三个月就业班》股票数据分析案例的总结,整个案例包括linux、shell、python、hive、pycharm、git、html、css、flask、pyechart、sqoop等的使用,为了让就业班同学能够更好的学习,所以对上面大家有疑问的内容进行了总结。本篇是股票数据分析案例第一篇总结—Git使用本文阅读路线:为什么要学习Gitgit、github、gitlab...

2019-08-28 12:27:51 937

原创 pyecharts总结之快速上手

最近在开发股票可视化案例,使用pyecharts可视化工具比较多,主要有下面几个感受和大家分享下:1.对于刚学习可视化或者转行数据分析工作的同学可以花几天时间研究下,上手比较快,颜色搭配也比较好看。2.公司里面能够愿意花钱,商业版可视化Powerbi、Tablueau、FineBI要比这个好用不少。3. pyecharts在做成精致的看板方面还是不够灵活的,需要借助前身echarts来用,这个就...

2019-08-23 09:27:34 4228

原创 通过数据明白生活中的一些真实现象

对于我们数据分析从业者是很有必要通过数据弄明白生活中的一些真实现象。今天我们来聊下下面的几个现象:为什么找个合适的对象这么难呢?价格高的股票还能投资吗?为什么绝大多数投资者都会输给市场呢?一:为什么找个合适的对象这么难呢?最近和身边或者社群的同学聊天,其中有同学谈到结婚对象的问题,说现在找个结婚对象这么难呢?说自己的要求也不高,只要身高一般以上、挣钱能力一般以上、颜值一般以上、性格一...

2019-08-23 09:26:20 752

原创 真实案例告诉大家数据分析师如何工作

看到同学们会经常问,数据分析工作是怎么样的呢?怎么才能有业务思维呢?这些东西怎么来学习呢?说实话,这些东西仅仅是拼借着书籍很难理解深刻的。下面我们继续把数据蛙当作一个潜力公司,如果要理解深刻,先了解下数据蛙的业务哈,(注意:下面的数据是随机生成)一:以运营的视角来看数据分析工作大家来想下,如果你和数据蛙的运营同学是搭档,那怎么才能把数据蛙这家公司运营的更好呢。运营同学负责用户增长、营业额上升,...

2019-08-23 09:24:28 1995

原创 定投区块链作业

定投区块链(第一次作业——金马带你定投区块链3班李凯旋)在李金马老师带领下,已经学习区块链知识将近一个月的时间,现在要进行一次复盘行动了。回头看看自己收获了什么,还需要哪些不足可以得以改正。一年前就听过比特币就是不行动第一次听说区块链方面的知识,是去年在王煜全老师《前哨》专栏里,并且还提到了寻找区块链领域的大牛要进行合作。王老师是海银资本的创始人,专注于投资高新的科技,并且他要投资的科技都...

2019-08-02 17:41:50 446

原创 分析Ajax抓取今日头条街拍美图(一)

1043-Python-小组:李凯旋工具:Python3.5requests库(网络库)BeautifulSoup(解析库)MongoDB(存储库)先解释下AjaxAjax 是一种用于创建快速动态网页的技术,通过在后台与服务器进行少量数据交换,Ajax可以使网页实现异步更新。就是如打开某个网页,鼠标下拉,网页又多了一部分内容,在这个过程之中只加载了多出来的那部分内容,并没有重新加...

2019-08-02 17:39:12 158

原创 Python循环(for、while)下最易错的语法

1043-python-小组:李凯旋循环语句下break和continue的区别和作用break和continue都是用来控制循环结构的,主要是停止循环。breakbreak用于完全结束一个循环,跳出循环体执行循环后面的语句。for x in range(10): if x == 5: break print(x)print('for循环终止')...

2019-08-02 17:37:14 308

原创 Python中return和print的作用及区别

print的作用是输出数据到控制端,就是打印在你能看到的界面上print的作用还是比较容易理解的print (1)print (‘asdfghj’)输出结果1asdfghj如上就是输出数据到控制端return的作用之一是返回计算的值没有return语句x = 1y = 2def add (x, y):z = x + yprint (add(x,y))输出结...

2019-08-02 17:35:07 867

原创 分析Ajax抓取今日头条街拍美图(二)

1043-Python-小组:李凯旋抓取美图流程获得索引页解析索引页获得详情页解析详情页存储、并下载获得索引页import requestsfrom requests.exceptions import RequestExceptionfrom urllib.parse import urlencodedef get_page_index(offset,keyword):...

2019-08-02 17:33:53 486 1

原创 使用Selenium模拟浏览器抓取淘宝商品美食信息(总结)

先说下 Selenium 是什么?一句话讲是一种自动化测试工具。它支持各种浏览器的驱动,包括 Chrome,Safari,Firefox ,PhantomJS,可以方便地实现Web界面的测试。由于淘宝页面比较复杂,直接请求比较繁琐,所以使用selenium自动测试工具驱动浏览器完成工作。比如点击、下拉、输入等目标:使用Selenium模拟浏览器抓取淘宝商品美食信息,并存储到mongodb创...

2019-08-02 17:31:50 267

原创 反爬虫微信文章(总结)

在爬虫时,某些网站会有封ip的现象,所以选择利用代理伪装我们的ip进行爬虫请求,但进行爬虫时可能需要很多ip,这时就要求维护一个代理池(池也就是代理队列),可放进代理,也可取出代理。本文中选择的崔庆才老师维护的代理池,是用Flask和Redis维护的一个代理池。设计的基本思路从各大网站获取免费的有用代理用Redis来维护池的队列存储维护池,剔除无用的代理,获得有用的代理Flask是实现...

2019-08-02 17:29:57 1097

原创 Python 文件 I/O(学习总结)

打开和关闭文件open 函数你必须先用Python内置的open()函数打开一个文件,创建一个file对象,相关的方法才可以调用它进行读写。语法:file object = open(file_name [, access_mode][, buffering])各个参数的细节如下:file_name:file_name变量是一个包含了你要访问的文件名称的字符串值。access_m...

2019-08-02 17:28:20 200

原创 使用闭包时常犯的一个错误

这样的错误def count(): fs = [] for i in range(1, 4): def f(): return i*i fs.append(f) return fsf1, f2, f3 = count()print(f1(),f2(),f3())你可能认为输出结果应给是1,4,9但是实...

2019-08-02 17:23:04 542

原创 币圈的跌宕起伏

昨天和一同学谈论区块链技术的时候,一同学问我知不知道区块链投资世界发生了大事。竟然发生了这么多的事情2017年08月30日, ico.info 暂停了所有 ICO 业务,后续 ico.info 上面的项目隐藏。2017年09月04日,七部委:中国人民银行、中央网信办、工业和信息化部、工商总局、银监会、证监会、保监会联合发布公告,明确 ICO 为非法集资。2017年09月04日-0...

2019-08-02 17:21:27 203

原创 想和大家一起做点事情

查理芒格说,“我这辈子遇到的聪明人没有不每天阅读的——没有,一个都没有。”邀请大家一起写作开始谈正事之前,我想和大家一起聊聊读书的事情。首先我比较喜欢读书的,有段时间竟然要求自己每周都要读一本书,并且还要求自己加快阅读速度,希望能够阅读更多的书。可突然有天想到一问题,自己读书的方法是不是本末倒置了呢?一直追求读书的数量,从来没有思考过作者观点是否站的住脚,逻辑是否融洽,以及相同领域作者...

2019-08-02 17:20:32 134

原创 为什么转行数据分析

开始学习数据分析自己是2016年年末接触到编程(Python)的,当时连安装开发环境都感觉好难。在自己就要放弃的时候,带我们一起学习的升哥说,安装好开发环境就能打败一大半自学的人,为了成为打败别人的人,自己整整捣鼓两天终于完成了安装,其实好多自学者真的是败在了这里。随后,跟着升哥学习到了现在,今天,我想把升哥教会我的两个重要的学习方法顺便分享给大家:学会搜索,想想来看世界这么大,我们存在的问...

2019-08-02 17:18:54 250

原创 R和Python数据结构对比

本文内容概要:R语言数据结构及实例操作Python语言数据结构及实例操作R语言数据结构及实例解析接下开始学习R语言的向量、矩阵、数组、数据框、列表这五个数据结构。1.向量向量是用于存储数值型、字符型或逻辑型数据的一维数组。函数c()可用来创建向量。单个向量中的数据必须拥有相同的数据类型.> name <-c('猴子','李四','王五','张三'); #创建一个向量...

2019-08-02 17:17:49 365

原创 成为数据分析师要掌握的统计学知识(基础版)

阅读路线:概率介绍离散型概率分布和连续型概率分布抽样和抽样分布区间估计假设检验概率介绍概率是指的对于某一个特定事件的可能性的数值度量,且在0-1之间。我们抛一枚硬币,它有正面朝上和反面朝上两种结果,通常用样本空间S表示,S={正面,反面},而正面朝上这一特定的试验结果叫样本点。对于样本空间少的试验,我们极易观察出他们样本空间的大小,而对于较复杂的试验,我们就需要学习些计数法则了...

2019-08-02 17:16:12 448 1

原创 成为数据分析师要掌握的统计知识(进阶版)

阅读指南:总体均值和比例的统计推断总体方差的统计推断总体均值和比例的统计推断其实数据分析更多情况是两个总体的比较,譬如男女用户的差异、用户群体的差异、以及产品AB测试的好与坏,所以接下来对两个总体比较的情况进行学习。接下来讨论的内容为:σ1,σ2已知,u1-u2的区间估计和假设检验σ1,σ2未知,u1-u2的区间估计和假设检验两个总体均值之差的推断:σ1,σ2已知...

2019-08-02 17:14:09 209

原创 初试数据分析(R)

这篇的文章主要目的是,根据提供的朝阳区医院2016年销售数据.xlsx数据表,得出月均消费次数、月均消费金额、客单价和消费趋势这五个结论。阅读路线:数据导入数据清洗数据分析数据导入为了方便,我把excel文件另存为了csv文件,并且重命名为2016.csv,然后放在Desktop文件夹下。设置工作路径>setwd("C:\\Users\\lkx\\Desktop")...

2019-08-02 17:12:44 303

原创 航行距离和延误时间到底有没有关系呢?

今天想和大家讨论的问题是:飞机航行距离和延误时间有没有关系呢?我们的数据是R 中nycflights13包的航班数据。好了,搬好小板凳,我们要开始分析了。先简单了解下我们的数据> install.packages("dplyr") #安装数据处理包> install.packages("nycflights13") #安装数据包> library(dply...

2019-08-02 17:11:27 1009

原创 SQL入门学习

数据库简单来讲就是一堆互相关联的数据,最基础的数据组成了表(table),也是我们经常看到的一张Excel的sheet。Mysql的安装Mysql安装注意首先去MySQL的官网下载,版本5.6以上即可,安装的过程不打算进行细说,谷歌有很多的教程。这里给大家分享下我踩过的坑。刚开始大家把下载好的程序,直接一路选择默认。但是填写Root用户密码时,一定要牢记密码剩下的照样可以一路选择默...

2019-08-02 17:09:24 244

原创 Python数据分析包的学习

用Python进行数据分析时常用包有numpy、scipy、pandas,matplotlib,由于自己现在还是数据分析的初级阶段,一般情况下numpy、pandas、matplotlib包的一些基本知识就够自己在数据分析时使用了。接下来为大家数理下这几个包的使用阅读路线numpy包学习pandas包学习python绘图numpy包的学习numpy是Python的数值计算扩展,专门...

2019-08-02 17:05:32 327

原创 数据分析师薪酬如何?爬虫拉勾网告诉你

首先说明这篇文章的数据来源,是爬虫拉勾网"数据分析师"这一职位信息所得来的。并且主要分析了数据分析师总体薪酬情况、不同城市薪酬分布、不同学历薪酬分布、北京上海工作经验薪酬分布情况、北上广深对数据分析职位需求量以及有招聘需求的公司所处行业的词云图分析。阅读路线:数据采集数据清洗与处理数据分析报告分析结论思考总结数据采集找到我们所要的信息位置首先登录拉勾网,在顶端输入框内输入...

2019-08-02 17:02:10 1545

原创 Kaggle泰坦尼克生存预测之随机森林学习

这篇文章讲述的是Kaggle上一个赛题的解决方案——Titanic幸存预测.问题背景是我们大家都熟悉的【Jack and Rose】的故事,豪华游艇与冰山相撞,大家惊慌而逃,可是救生艇的数量有限,无法人人都有。赛题官方提供训练数据和测试数据两份数据,训练数据主要是一些乘客的个人信息以及存活状况,测试数据也是乘客的个人信息但是没有存活状况的显示。所以本文的主要目的就是,根据训练数据生成合适的模型并预...

2019-08-02 16:37:35 1347 1

原创 自己找数据分析工作时所犯的错误

看到好多人都分享了如何成功转行数据分析工作的文章,确实能让我们有了别人能够做到,我们也能做到的信心。在大家对转行数据分析工作有信心并努力的同时,也希望大家在求职的过程中少走些弯路,所以今天想和大家分享下我在找工作的时候犯了哪些错,使找工作未果。(如果只是我自己的问题,大家也勿喷啊)阅读路线:找工作前的情况所犯的一些错误入职数据分析工作所需知识找工作前的情况先来说下自己的情况,今年六...

2019-08-02 16:35:16 259

原创 入门机器学习到底需要多少数学知识

还记得上个月的时候,准备学习机器学习的知识,想着线性回归模型较简单一些,那就从它开始吧。可是仔细一看里面的知识包括矩阵、极大似然函数、求导等方面的知识,这些知识也只是大学的时候学习的,现在也早已还给了老师。于是开始搜索入门机器学习需要哪些数学知识,应该怎么去学,搜索的结果表明,概率论统计、线性代数、高等数学这些知识都是需要的。可是自己真的要花很长时间一点点的把这几本书给学完吗?我当时就在想,如果...

2019-08-02 16:31:20 174

原创 用Python 的Flask实现 RESTful API(学习篇)

这篇文章主要是自己的学习总结,阅读路线如下:理解API理解Restful API理解装饰器理解Flask框架使用Python Flask 实现Restful APIAPI的理解API(application programming interfaces),即应用程序编程接口。API由服务器(Server)提供(服务器有各种各样的类型,一般我们浏览网页用到的是web server,...

2019-08-02 15:45:25 2706

原创 数据挖掘工作所需技能—正则表达式

由于这两天所做的项目涉及到了文本分析的内容,并在处理脏乱文本(就是做一个词云图,要把英文、一些标点符号之类的给清除掉)时使用了正则表达式,所以特别来总结下。在以后的一段日子里,我会尽量总结在每周工作中遇到的知识点,一是为了让还在转行路上的朋友了解下实际的工作涉及的内容,二是为了巩固自己学习到的知识。正则表达式正则表达式(regular expression),简单的理解为是由一些字符和特殊符号...

2019-08-02 15:43:25 186

原创 数据挖掘之Spark学习

阅读路线:Hadoop与Spark比较Spark的安装Spark知识点一、Hadoop与Spark比较1.简单的比较刚开始学习Spark的时候,自己总是会想当然的理解两者之间的关系。Hadoop和Spark的处理任务有很多是一样的,比如说他们都是有数据计算处理的功能,但是在一些方面又并不相互重叠,比如说,Spark没有文件管理功能,因而必须依赖Hadoop分布式文件系统(HDFS)...

2019-08-02 15:33:51 493

原创 年前的一个小计划

马上快过年了,公司(乙方)把很多新的项目也都放到了年后,领导说趁着时间有些空闲让我们赶快充电,也对我们加强了培训(业务方面和技术方面)。于是就想着年前把转行前匆忙学习的知识做一个回顾,同时也想到学习最好最快的方式不就是教吗?所以接下来准备建立一个学习社群(对的,是免费的)主要目的有两个:巩固自己学习过的知识。解决学习数据分析朋友遇到的问题,帮助大家尽快的完成转行。社群形式:大家先加我...

2019-08-02 15:27:04 125

原创 逻辑回归二分类总结(不断迭代,直到彻底掌握)

——背景——近来,想把学习过的机器学习算法做一个总结,于是打算结合网上的面试经验和工作的需求写下一个机器学习系列文章。这里是更多是参考网上以及书本中的知识,目的系统的整理这些知识,并且只要是参考的文章都会给相应的链接,大家也可以根据需要进行学习。——正文——用一句话来介绍逻辑回归就是这样的,假设数据服从伯努利分布[1],通过**极大化似然估计[2]的方法,运用梯度下降法[3]**来求解参数,...

2019-08-02 15:25:03 2223

原创 有些赚钱机会可能真的不属于自己

看了看上次更新文章的日期,已经是近两个月前了,这期间的两个月自己做了什么呢?自己接触了下面的几件事情:又加入了一个社群,一个探讨互联网如何进行营销、获取流量、并变现的社群。为了想抓住区块链带来的红利,每天在学习数据挖掘所需要的知识之外,接着研究区块链源代码。认为仅仅通过工资并不能得到应有的财富,所以每天还学习金融知识还有更重要的,巩固数据挖掘所需要的知识。不是自己的机会,就会不断的...

2019-08-02 15:21:20 80

原创 python 实现hadoop的mapreduce

为了用python实现mapreduce,我们先引入下面两个个知识sys.stdin()itertools之groupbysys模块的简单学习sys.stdin 是一个文件描述符,代表标准输入,不需使用open函数打开,就可以使用例如下面的简单程序 # coding=utf-8 import sys for line in sys.stdin: print...

2019-08-02 15:20:10 1032

原创 生产环境中进行机器学习模型部署(using Flask)

我们原来一直看的文章,大都是在讲机器学习原理、如何构造特征、如何调参之类的,但是实际中模型是如何进行部署的呢?下面的这篇文章就是在讲用Flask框架进行模型部署(注明:这篇文章基本是翻译国外大神的著作,如果英文不错建议直接看原作,英文不好的话也要尽量看下原作)文章目录:部署机器模型的选择什么是APIs?Flask基础创建一个机器学习模型保存机器学习模型:序列化和反序列化用Flask...

2019-08-02 15:18:28 453

原创 python装饰器理解

阅读顺序:函数引用函数闭包装饰器(最好先阅读上面的两个)1.函数引用2.函数闭包3.装饰器背景:一般公司中,一项开发任务都是好多程序员协作完成的,每个人负责写好自己的模块,然后供有需要的人拿去调用,这是可能就会出现权限认证的问题。比如说程序员A想调用成员B的代码,这时就会先检查下程序员A有没有权限来调用。其实上面的代码可以简化为这样:使用了装饰器之后,就可以不用修改...

2019-08-02 15:17:00 89

原创 SQL EXPRESSION STUDY 1

Content List:Case WhenCROSS JOIN (U-SQL)Cross Apply And Outer ApplyQuerying XML fields using t-sql一:Case Whencase expression has two formats:simple case expression CASE input_expression ...

2019-08-02 15:15:52 253

原创 SQL之行转列Pivot函数

未来的一个月时间中,会总结一系列SQL知识点,一次只总结一个知识点,尽量说明白,下面来说说SQL 中常用Pivot 函数(这里是用的数据库是SQLSERVER,与其他数据库是类似的,大家放心看就好)让我们先从一个虚构的场景中来着手吧万国来朝,很多供应商每天都汇报各自的收入情况。先来创建一个DailyIncome 表create table DailyIncome(VendorId nvarc...

2019-08-02 15:14:33 473

原创 零基础入门数据分析成员的新年计划

2017年12月8日,做了第一份数据工作-----数据挖掘,后来和转行数据分析的同学组建讨论群,不知不觉中都有242人了(2019年1月5日316人)群内成员虽来自各行各业、各个年龄段,但他们大都有一个共同特点就是-------经过自己的努力,从真正的零基础找到了数据类的工作,现在有不少同学已经在平安、饿了么等大公司担任数据类职位,看到身边这么多优秀的朋友,真的是特别开心。真的是,把时间种在哪里,...

2019-08-02 15:13:21 137

白话区块链

本书详细介绍了区块链的组成、应用、实现等,涵盖比特币原理、密码学原理、P2P网络、智能合约、侧链、多链、联盟链、竞争币等知识点,每一个知识点都采取拟人对话、故事场景、图表等方式,以探险模式循序渐进地进行阐述。 本书将呈现给读者一个全方位的视角,从技术到应用以及未来展望,以通俗的语言阐述区块链的各个技术点,力求给读者一个通透的讲解,并希望能抛砖引玉,引导读者拓展出新颖而有价值的思路

2018-06-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除