自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 【PythonPlanet】数据清洗-空值转换

原数据中空值并没有留空,而是用“\“,”-“,”无“等字符标注,有什么好办法可以处理?创建原始数据import pandas as pddata = [[100], ['/'], ['无'], [99]]columns = ['成绩']df = pd.DataFrame(data = data, columns = columns)df转换空值df['新成绩'] = pd.to_numeric(df.成绩.astype(str).str.replace(',', ''), er

2021-09-20 10:12:46 225

原创 【SQLPlanet】共享单车运维团队面试题

表1:emp表2:attend1.上周每天分城市分职务的在岗人数和出勤率出勤率=当天有效出勤人数/当天在岗人数(出勤会有多次编辑,相同出勤ID按gmt_modify降序排列,取最新1条)Sql语句:SELECT e.pt, e.city_name, e.group_type, COUNT(e.emp_id) AS num, round( COUNT(b.id) / COUNT(e.emp_id), 2 ) AS attend_rateFROM emp AS eLEF

2021-04-24 22:39:51 416 2

原创 【VBAPlanet】日期调整与多条件匹配

主要知识点1.循环语句2.多条件匹配-条件判断-数组-字段3.函数_日期类型转换代码示例Option ExplicitDim wb As Workbook, sht As Worksheet, sht_info As WorksheetDim file_path As String, file_name As StringDim dic As Object, dic_sn As Object, dic_zl As Object, dic_yh As Object, dic_xz As Ob

2020-11-06 17:35:17 684

原创 【PythonPlanet】数据可视化_词云展示

今天做一个数据可视化的项目。我们经常需要对分析的数据提取常用词,做词晕展示。比如一些互联网公司会抓取用户的画像,或者每日讨论话题的关键词,形成词云并进行展示。再或者,假如你喜欢某个歌手,想了解这个歌手创作的歌曲中经常用到哪些词语,词云就是个很好的工具。最后,只需要将词云生成一张图片就可以直观地看到结果。在今天的项目里有3个目标需要掌握:掌握词云分析工具,并进行可视化呈现;掌握Python爬虫,对网页的数据进行爬取;掌握XPath工具,分析提取想要的元素。制作歌词词云假如我们现在要给毛不易的

2020-10-15 16:23:46 573

原创 【PythonPlanet】爬虫_设置随机的UserAgent

为了避免因为使用同一头部信息导致网站服务器拒绝你的请求,可以使用fake-useragent库实现每次请求带不同的http头部信息。代码如下:# 先在终端安装第三方库,pip install fake-useragentfrom fake_useragent import UserAgentua = UserAgent(verify_ssl = False)# 模拟不同的浏览器print(f'Chrome浏览器:{ua.chrome}')# print(ua.safari)# print(

2020-09-07 17:31:42 119

原创 【PythonPlanet】爬虫_协程和队列

前言当我们想要爬取的是成千上万条的数据,那么就会遇到一个问题:因为程序是一行一行依次执行的缘故,要等待很久,我们才能拿到想要的数据。既然一个爬虫爬取大量数据要爬很久,那我们能不能让多个爬虫一起爬取?这样无疑能提高爬取的效率,就像一个人干不完的活儿,组个团队一起干,活一下被干完了。这是一个很好的思路——让多个爬虫帮我们干活。具体怎么用Python实现这事呢?我们可以用协程和队列。代码示例用协程和队列爬取搜狗、新浪、天猫等8个网站。from gevent import monkey# 从ge.

2020-09-04 10:27:53 249

原创 【PythonPlanet】函数_闭包

闭包和嵌套函数类似,不同的是,这里外部函数返回的是一个函数,而不是一个具体的值。返回的函数通常赋予一个变量,这个变量可以在后面被继续执行调用。Talk is cheap, show me the code. 比如,我们想计算一个数的 n 次幂,用闭包可以写成下面的代码:def nth_power(exponent): def exponent_of(base): return base ** exponent return exponent_of # 返回值是exponent_of函数sq.

2020-08-09 10:29:35 211

原创 【PythonPlanet】爬虫_电影

豆瓣电影TOP250import requestsfrom bs4 import BeautifulSoupheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}list_all = []for n in range(11): # 获取数据 url_page =

2020-08-05 15:24:39 135

原创 【PythonPlanet】爬虫_菜谱

# 引用requests库import requests# 引用BeautifulSoup库from bs4 import BeautifulSoupheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}# 获取数据res_foods = requests.get('http:

2020-08-05 15:18:39 130

原创 【VBAPlanet】VBA+ADO+SQL,这样取数真香

ADO是什么首先,我们要介绍下ADO。ADO (ActiveX Data Objects,ActiveX数据对象)是微软提出的应用程序接口,用以实现访问关系或非关系数据库中的数据……更多概念信息可以自行搜索。之所以要学习ADO,一个原因是ADO自身的一些属性和方法对于数据处理是极其有益的;更重要的原因是,在EXCEL VBA中,一般只有通过ADO,才可以使用强大的SQL查询语言访问外部数据源,进而查、改、增、删相关数据源中的数据。延伸在具体编程操作上,就形成了四步走发展战略:VBA引用ADO类库

2020-07-24 12:23:39 3191

原创 【PythonPlanet】流动图书馆项目

Python基础项目_流动图书馆class Book: def __init__(self, name, author, comment, state = 0): self.name = name self.author = author self.comment = comment self.state = state def __str__(self): status = '未借出'

2020-07-10 09:27:43 296

原创 【SQLPlanet】如何将一维表转化为二维表

数据和要求我们有两张表,一张是学生成绩表(score):另一张是课程表(course):使用sql语句实现每个学生各科成绩的展示,查询结果如下:过程表首先,为了直观的展示课程名称,我们使用多表联结来实现一个过程表的查询。SQL语句如下:SELECT s.`学号`, c.`课程名称`, s.`成绩`FROM score AS s LEFT JOIN course AS c ON s.`课程号` = c.`课程号`;查询结果如下:条件判断接下来,我们已上面的查询结果作为过程表

2020-06-29 14:20:58 2601

原创 【SQLPlanet】使用Python操作MySQL

我们可以通过后端语言对 DBMS(关系型数据库系统)进行访问以及进行相应的操作,这样更具有灵活性,可以实现一些较为复杂的操作。今天我们以 Python 为例,讲解下如何对 MySQL 数据库进行操作。你会掌握以下几个方面的内容:Python 的 DB API 规范是什么,遵守这个规范有什么用?基于 DB API,我们以 pymysql 为例,如何使用它来完成对数据库管理系统的操作?掌握 pymysql 的使用方法之后,如何完成对数据库的增加、读取、修改和删除(即CRUD)操作?Python D

2020-06-24 10:46:31 178

原创 【SQLPlanet】打车业务数据分析

背景数据公司的app(类似滴滴、uber)为用户提供打车服务。现有四张表,分别是“司机数据”表,“订单数据”表,“在线时长数据”表,“城市匹配数据”表。以下是四张表的部分数据和部分字段含义:1.司机数据2.订单数据上表中的“产品线id”:1表示专车,2表示企业专车,3表示快车,4表示企业快车3.在线时长数据4.城市匹配数据业务问题分析出2020年8月各城市每天的司机数、快车订单量和快车流水合计。分析出2020年8月和9月,每个月的北京市新老司机(首单日期在当月为新司机)的司机数

2020-06-13 14:46:07 896

原创 【PythonPlanet】数据清洗原则:完全合一

拿做饭打个比方,对于很多人来说,热油下锅、掌勺翻炒一定是做饭中最过瘾的环节,但实际上炒菜这个过程只占做饭时间的20%,剩下80%的时间都是在做准备,比如买菜、择菜、洗菜等等。

2020-05-26 17:59:27 1545

原创 【PythonPlanet】Python科学计算:Pandas

今天要介绍的是Python中一个非常常用的工具Pandas。在数据分析工作中,Pandas的使用频率是很高的,一方面是因为Pandas提供的基础数据结构DataFrame与json的契合度很高,转换起来很方便。另一方面,如果我们日常的数据清理工作不是很复杂的话,通常用几句Pandas代码就可以对数据进行规整。Pandas可以说是基于NumPy构建的含有更高级数据结构和分析能力的工具包。在NumPy中数据结构是围绕ndarray展开的,那么在Pandas中的核心数据结构是什么呢?隆重有请Series和

2020-05-20 11:08:43 421

原创 【ExcelPlanet】电商母婴用品购买情况分析

一、分析背景政策(Policy):2015年10月,全面实施二孩政策。避免生育堆积,平稳突进政策,每年或新增人口300-800万。经济(Economy):随着居民收入水平的提升,居民家庭全部现金收入能用于安排家庭日常生活的那部分收入明显增加。育儿消费是中国主要民生消费,母婴人群具有长期高频消费需求。社会(Society):新生代父母健康意识强,更注重科学健康孕育。新生代父母重视宝宝早教和健...

2020-05-14 16:11:32 696

原创 【PythonPlanet】二手房产成交数据分析

一、项目概况该项目是使用Python对北京链家二手房经纪人成交数据进行分析的一个综合实例,包括pandas/numpy/matplotlib绘图的应用,涉及到数据读取、清洗、离散化等处理,使用了分组分析、假设验证分析和相关性分析等分析方法。分析目标:分析北京二手房成交价格分布寻找每个版块成交总金额超过一亿的经纪人分析成交量超过一亿的经纪人相关因素二、数据概况数据涵盖2011年-2...

2020-05-01 16:31:37 630

原创 【ExcelPlanet】SUMPRODUCT函数用法:单条件、多条件、模糊条件求和与计数

欢迎来到ExcelPlanet,今天我们来聊聊一个“真香”的求和函数:SUMPRODUCT。因为涉及到数值概念,导致一开始可能会有入门障碍。但其实理解之后,在统计报表等方面的功能非常强大。一、函数解析SUMPRODUCT函数是Excel中的数学函数,将给定的几个数组间对应元素相乘,并返回乘积之和。其基本语法为:SUMPRODUCT(array1,[array2], [array3], …...

2020-04-24 16:08:25 7923

原创 【SQLPlanet】基于迁徙率等指标浅析拍拍贷逾期数据(未完待续)

1、背景介绍拍拍贷是一家金融科技公司,2007年成立于上海,并在2017年11月10日成功于美国纽交所上市。根据官方消息,截至2018年9月30日,拍拍贷累计成交额已突破1300亿,15-29天及30-59天的逾期率分别为0.83%和1.21%,自2015年,拍拍贷推出魔镜系统用于对每一笔借款进行风险评估,通过对借款人资质审核并预测未来逾期概率,对相应风险进行定价,基于大数法则保证整体的可观收...

2020-04-21 21:41:15 875

原创 【VBAPlanet】操作单元格对象的常用代码

欢迎来到VBAPlanet,今天我们来聊聊操作单元格对象的常用代码。一、复制粘贴如果我们需要将A1:D5单元格区域的数据复制到H1:K5区域,可以使用以下代码Sub CopyRng1() Range("A1:D5").Copy Range("H1:K5")End Sub粘贴区域可以只指定左上角的首个单元格,系统会根据复制区域的大小,自动扩展目标区域,所以以下代码更为常用Su...

2020-04-13 13:48:48 459

原创 【VBAPlanet】如何灵活快捷的合并工作簿

注意

2020-04-11 21:31:01 266

原创 【VBAPlanet】单元格对象那些事

欢迎来到VBAPlanet,今天我们来聊聊

2020-04-09 10:40:09 511

原创 【VBAPlanet】如何用字典处理多条件查询

欢迎来到VBAPlanet!今天和给你分享的内容是使用VBA中的字典来实现多条件数据查询的功能。如下图所示,表名为“明细表”的数据是各位英雄课程成绩的明细数据。再如下图所示,表名为“查询表”的数据是需要查询的数据。Sub DicFind() Dim dic As Object, arr1, arr2 Dim num1 As Integer, num2 As Integer...

2020-04-05 14:50:47 2865

原创 【ExcelPlanet】index & match,就这样自如地查询数据

在excel里,对于“查找”的实现,vlookup绝对是使用得最为频繁的一个函数。但是,遇到下面问题,vlookup就没用了。下面的表格记录了王者荣耀英雄的信息,现在想通过“name”查找对应的“id”。如图所示,通过输入不同的英雄名,就会返回对应的“id”。在原数据里,“id”在A列,“name”在B列,如果是通过id来查询对应的name,用vlookup函数就能轻松解决。但现在是通过B...

2020-04-01 13:52:28 540

原创 【VBAPlanet】如何实现数据精确查询与匹配

大家好,我是海林,今天跟大家分享的VBA小代码主题是数据精确查询与匹配。我们用王者荣耀的数据来举例,如下图所示。根据A:C列的数据源信息,查询E列英雄名相应的职业类型,如果查询无结果,则返回空白。此类问题常用的解决办法有两种,一种是Find方法,另一种是If等于条件判断。1.Find方法Sub RngFind() Dim Rng1 As Range, Rng2 As Range...

2020-03-23 17:06:23 6967 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除