自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 pandas 数据清洗和分析(一)

python是一款非常好的数据分析工具。高自由度和丰富的第三方库的支持,对于大部分行业的数据分析非常友好,其中最为常用的数据清洗和分析第三方库是numpy和pandas。常用的xlsx、csv、txt数据读取、合并、缺失值处理、重复值处理、异常值处理以及切片替换等操作都比较简单且容易查询。本文主要介绍一些实际工作中用到的一些方法。1、数据读取和导出经验1)pandas连接mysqlfrom sqlalchemy import create_engine def import_data_mysq

2020-07-19 20:25:54 538 2

原创 数据挖掘个人总结

*本篇是个人对数据挖掘过程的一些代码总结##数据挖掘1、明确目的2、数据获取3、数据审查4、特征工程5、模型构建6、模型验证及迭代思维导图全貌:导图下载:链接:https://pan.baidu.com/s/10F_Ush-2Htn2CRaknEfzXg提取码:pcde...

2020-05-30 12:41:17 625

原创 《python数据分析与数据化运营》笔记

*本篇主要是读《python数据分析与数据化运营》的笔记记录,本书主要涵盖了主要业务场景下的数据分析思路及方法,大部分的方法也都在工作中应用到,算是系统性巩固分析思路和代码吧。思维导图概要:思维导读全貌:导图下载:链接:https://pan.baidu.com/s/1IXLu3sjPmf4UZh77nHGscA提取码:0pxt...

2020-05-30 12:35:47 319

原创 利用python pdfplumber读取pdf文件内容

一、简单介绍:1、Pdfplumber是一个可以处理pdf格式信息的库。2、pdfplumber安装:pip安装即可,可能需要安装pdfminer库,py3.7版本及以上 需安装pdfminer.six3、常用函数:基于pdf页面的.extract_text() 用来提页面中的文本,返回字符串.extract_words() 返回的是所有的单词及其相关信息.extract_tables...

2020-04-26 20:37:58 6010

原创 《强尼的数据分析漫谈》 第二篇 主要工作内容和个人见解

主要工作内容和个人见解本篇主要是作为在业务团队中的数据分析师的一些分析思路分享行业背景:通信行业销售部门 (类似电商 )目前我在业务场景中遇到的两种情况:一类是现有业务线,这类场景稳定,涉及到的数据和指标大多已经固定;另一类是新业务线or新的营销场景,面对的是较为陌生的数据,甚至数据的提取都需要探索。接下来就上述两类情况分享一些想法:一、基于固定场景的数据分析分为三类:1)固定的数据指标...

2019-11-03 13:44:50 722

原创 《强尼的数据分析漫谈》

《强尼的数据分析漫谈》 第一篇数据科学项目的系统化流程1.准备阶段1)目标:明确项目目标,即要充分沟通需求内容、尽可能保证需求的合理性以及细化目标。注:项目目标是项目的先决条件,好的需求文件可以事半功倍。与需求提出者的沟通至关重要,好的问题往往很重要。PS:如果是需求提出者,在提交需求时要明确要获得的目的,清晰的目标是良好的开始。2)探索:即探索和收集可用的数据,数据可能是公司内已有的、...

2019-10-27 14:30:34 214

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除