- 博客(52)
- 资源 (10)
- 问答 (1)
- 收藏
- 关注
原创 python读取excel丨换一种存储格式, 读取速度提升几倍
您好, 本博客将持续更新python数据分析技巧, 一次解决一个问题,欢迎关注订阅!本次介绍提升excel文件读取速度问题工作中我们会有一些大文件(excel, csv等), 作为基础数据经常会读取, 如何减少读取时间, 提升效率呢?今天用了一个88万行13列的表格, 按不同的方式读取比较读取用时如下:excel文件: 文大小 61.9M, 读取用时 200秒csv文件: 文件大小 194M, 读取用时 5秒hdf文件: 文件大小 80M, 读取用时 2秒相同的数据, 用hdf方式.
2022-01-19 17:16:31
2015
原创 用python从日期中获取年、月、日、星期等30种信息
用python中的方法对日期数据进行处理, 我们可以获取很多有用的信息, 比如年月日,星期,季度等, 分享30余种常用的转换, 建议收藏!目录1 常用年月日时分秒,星期,周次...2一年中的第几天,第几个10分钟3是否闰年,年初年末,月初月末...4时段,季节5快捷计算6时间间隔天数1 常用年月日时分秒,星期,周次…读取excel表数据,将日期列转日期格式import pandas as pdimport numpy as npimport datetimedf = pd.read_exce
2022-01-18 16:44:17
15922
原创 python中如何根据多列计算排名? df.rank()
pandas工具包对数据进行排序可用rank()方法, 那如果多列按一定逻辑进行排名呢数据如下:按指标1和指标2进行降序排名, 且如果指标2相同则看指标1, 如何做呢? 如何按类别分组后排名呢?代码import pandas as pddf = pd.read_excel('./排名问题.xlsx')# 辅助列(转成不同的数量级后相加)df['排名用'] = df['指标2']*100+df['指标1']# 排名df['排名'] = df['排名用'].rank(ascending=Fa
2022-01-17 18:19:50
2820
原创 python中的进度条tqdm模块, 让进度可视
用python在进行一些复杂的计算时, 如果用时较长, 这个时候进度条就能直观的显示运行进度, 是个不错的功能.这里介绍其中一种进度条模块tqdm工具库安装pip install tqdm代码from tqdm import tqdma =1for i in tqdm(range(1,10000000)): a +=1案例比如计算2个地点的距离, 数量多, 计算较慢. 用tqdm就能知道计算到哪了# 读取数据data = pd.read_excel('C:/Users
2022-01-13 19:45:00
951
原创 只有一台普通电脑, 用python如何读取10G的超大文件?
学习或者工作当中经常会碰到处理大文件的时候, 如果你只有一台普通电脑该如何处理呢? 今天跟大家分享一个处理技巧, 就算现在没有碰到, 点右上角先收藏说不定以后会用到呢!思路硬件条件有限, 我们可以试试用pandas分块读取, 读取文件后一般有3种处理办法:读取后拆分为多个小文件存放读取后筛选部分信息合并为一个文件对数据进行汇总(数据透视)后存储(解释: 比如原始数据是一个按时间的明细, 可以读取后按年或者按月保存问题; 这种大文件有时候列比较多, 但不一定都是我们需要的, 我们可以只筛
2022-01-12 14:33:06
1005
原创 kaggle点赞最多的 泰坦尼克号数据竞赛模型融合方法(附代码)
听过很多大佬都是从kaggle上获取的知识, 加工整理成一套属于自己的竞赛体系今年7月份我开始参加大数据竞赛, 现在差不多有10场比赛了, 都是结构化比赛. 小的比赛还能进Top名次, 大点的比赛就比较难了, 问题在于没有形成系统, 所以计划将kaggle结构化, 时序比赛中比较好的notebook进行简单翻译并整理, 总结有用的信息, 期望在以后的比赛中能有更好的成绩.本文重点以kaggle上泰坦尼克比赛数据为例, 介绍如何进行stacking模型融合, kaggle上点赞数超过5000, 原文.
2021-11-28 15:23:44
1970
1
原创 DataFountain2021丨系统认证风险预测 TOP方案(附代码)
前段时间组队参加了DataFountain上"系统认证风险预测"挑战赛, 最后排名A榜第2, B榜第14, 遗憾未能进入决赛, 在这里分享下比赛过程, 最后有代码供各位参考.比赛链接系统认证风险预测比赛任务参赛团队将基于用户认证行为数据及风险异常标记结构,构建用户认证行为特征模型和风险异常评估模型,利用风险评估模型去判断当前用户认证行为是否存在风险。比赛为二分类预测问题, 对于竞赛初学者, 比较适合从这样的结构化比赛入手.方案最后提交的方案为lightgbm + catboost 融合.
2021-11-28 10:31:15
1446
2
原创 科大讯飞2021丨广告点击率预估挑战赛 Top1方案(附完整代码)
大家好, 作为一名机器学习初学者, 前段时间参加了2021科大讯飞AI开发者大赛, 队伍名称"写个故事".自己首次参加大数据比赛, 主要选择的相对容易结构化数据比赛, 在其中5个比赛中3个进入了前五名(广告点击率预估, 线下商店销量预测, 移动设备用户年龄和性别预测). 能取得这个名次, 除了运气成分(奖金不多, 高手都去了别的比赛), 还要感谢鱼佬, 阿水等几位大佬提供的baseline以及分享的很多资料.在这里给大家分享下广告点击率预估赛的解题思路.比赛链接科大讯飞2021广告点击率预估挑战赛
2021-11-20 19:50:12
3174
13
原创 pyechart中15种中国地图,世界地图可视化代码模板, 最适合放在ppt中
原计划是公司内部做一个分享, 看来是没有机会了, 地图可视化的代码分享给大家, 适合在ppt资料中做成动态效果!使用工具: python中的pyechart工具包, 生成的都是html文件安装方法: 之前的博客文章中有介绍, 可在文末找到ppt中加入动态图: 可用gifcam工具录制成gif动画, 插入到ppt中如果对你有帮助, 欢迎点赞关注!相关阅读推荐:1. python小白, 1周入门python数据分析视频课程2. pyechart可视化18式丨从
2021-07-02 10:27:03
2364
18
原创 python可视化工具pandas_bokeh作图技巧详解
史莱克七怪都要去海神岛练级了, 你的职场技能是否储备的够多了呢?前言:python中有很多可视化的工具包,比如入门级的matplotlib, 进阶级seaborn, 还有可以做出交互图的bokeh、pyechart、plotly、ggplot、pandas-bokeh, 工作中该选择哪个作为自己的主要魂技呢?学技能是为了解决工作中问题: 功能相同的工具包了解一个就够在你对上述工具包有一定了解的情况下, 日常一些重复项工作需要作图建议考虑两个方向:- pandas-bokeh:- 优点: 快
2021-05-29 10:26:45
1214
5
原创 pyechart数据可视化丨制作桑基图(sankey)的最简单方法
Pyechart官网上有关于桑基图的案例, 但是如何用日常使用的excel数据整理成作图的数据, 却没有很好的介绍, 今天我们介绍下制作桑吉图的6个步骤。桑基图适用场景: 如果工作中数据有很多分类变量, 用桑基图展示变量间关系会是一个不错的选择!本案例以泰坦尼克号乘客数据为例, 效果图如下:目录1 读取数据2 数据汇总 - 透视3 整理成3列数据 - 分组计算并合并4 生成作图用的nodes数据和links数据5 作图6 注意事项及更多适用场景1 读取数据2 数据汇总 - 透视3 整理成3
2021-05-15 09:03:36
4015
5
原创 pyechart可视化18式丨从柱形图的变化, 搞懂pyechart作图套路
嗨, 大家好, 我是Jack, 一名在猪场工作两年, 自学python,目前在一家上市公司工作的小小数据分析师 O(∩_∩)O~。如果大家要学python图表动态可视化, 强烈推荐pyechart工具包。首先它是中国制造, 其次确实很好用.pyechart官网介绍 : Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了ech
2021-05-04 20:50:23
3223
7
原创 8个常用的python办公室自动化技巧
平时在公司做数据分析的时候, 也会用python做些办公自动化的工作, 领导昨天说别人3个小时的活我们已经可以3分钟完成了 。 O(∩_∩)O~本文就给大家介绍几个我用到的办公室自动化技巧:文章目录1 Word文档doc转docx2 文字地址批量转经纬度3 经纬度计算距离4 百度经纬度转高德经纬度5 Excel文件批量合并6 Word文件批量转pdf7 批量读取word中表格数据8 用outlook批量发邮件1 Word文档doc转docx去年想参赛一个数据比赛, 里面的数据都是doc格式, 想.
2021-04-30 18:12:33
19182
65
原创 学习python数据分析的30个练手数据+4个数据集网站
前几天发了一个博文:懂点excel作图, 怎么让pyechart作的图更具“职场范“呢?丨pyechart工作作图模板, 一不小心上了热榜, 感谢小伙伴们的支持, 以后会多总结发更好的文章.有朋友问这十几个模板的数据文件, 想必是想实际操作一下, 很不错哟!我将数据上传到了论坛, 随便说下我收集数据的一些办法!文章目录pyechart模板的excel文件模板中涉及的2个数据源4个数据(集)网址1个python公共数据工具包: GoPUPpyechart模板的excel文件请点击: 模板数据
2021-04-30 09:06:37
11062
1
原创 懂点excel作图, 怎么让pyechart作的图更具“职场范“呢?丨pyechart工作作图模板
10年前, 偶然看到一本excel图表书籍《图表之道》,当时惊叹excel作图也能如此商务, 连续几天看完了全书, 自己对图表的喜爱也是从那时开始。现在除了excel, 我们有更多的工具可以做出好看、交互性强的图表, 比如python中的pyechart, 如果是python零基础, 该如何制图及调整呢?本文将介绍十余种工作中图表制作方法, 提供完整的模板, 就算不懂编程也能制作提前准备: 安装工具安装Anaconda软件下载地址: https://mirrors.tuna.tsin
2021-04-26 22:22:23
5089
25
原创 [工作必备]pandas数据分析处理52个常用技巧
pandas工具包类似于python中的excel, 在excel中的筛选、排序、计算、透视、vlookup、分类汇总等操作用python如何实现呢?本文精心整理的pandas数据处理与分析的51个技巧, 100多个知识点这么多技巧除了收藏, 如何掌握呢, 请看文末!技巧1: 导入工具包# pandas 和numpy是两个基础的工具包import numpy as npimport pandas as pd# matplotlib seaborn是作图工具包import matplo.
2021-04-22 20:56:54
3618
19
原创 05pandas读取excel csv txt文件
pandas丨数据读取与保存读取excel文件: pandas.read_excel()保存excel文件: pandas.to_excel()pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None,squeeze=False, dtype=None, engine=None, converters=None, true_values=None,false_values=No
2021-03-21 12:08:52
756
2
原创 04python中的数据结构
自带数据格式数值# 整数与小数a1 = 100 # 定义一个变量a1(建议定义的变量用英文数字下划线等符合组成), 并将100赋值给变量a1a2 = 3.14# 用print函数输出变量内容print(a1)print(a2)1003.14# 数值格式print(type(a1))print(type(a2))<class 'int'><class 'float'># 整数转小数float(a1)100.0# 小数转整数 ※int
2021-03-21 12:03:38
138
原创 不同经纬度坐标系之间转换
使用场景:用百度地图 高德地图或者谷歌做地图可视化时, 如果经纬度数据与地图工具的坐标系不匹配, 做出的图会有问题, 需要先转换坐标此段代码来自网络, 试用有效import mathimport urllibimport jsonx_pi = 3.14159265358979324 * 3000.0 / 180.0pi = 3.1415926535897932384626 # πa = 6378245.0 # 长半轴ee = 0.00669342162296594323 # 扁率
2021-03-10 10:16:36
767
原创 python爬取《你好, 李焕英》豆瓣评论数据
# 导入工具包import requestsfrom bs4 import BeautifulSoupimport timeimport pandas as pdimport numpy as np# 请求头headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'}# =
2021-03-03 08:37:04
2911
3
原创 03 juypyter notebook、spyder中常用设置
链接: https://edu.csdn.net/course/detail/31518
2021-01-24 21:18:52
281
原创 pandas数据读取与清洗视频12-python中数据筛选与排序
课程适用人群:python零基础数据分析的朋友;在校学生;职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;喜欢图表可视化的朋友;系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!视频地址:数据筛选与排序 本节代码:# 导入pandas工具包import pandas as pd# 读取数据data1 = pd.read_csv('D:/pytho
2020-12-15 21:33:25
172
原创 pandas数据读取与清洗视频11-删除行列、更改列名、填充缺失值
本系列课程适用人群:python零基础数据分析的朋友;在校学生;职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;喜欢图表可视化的朋友;系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!本节要点:3个基本数据清洗操作视频地址:python中删除行列、更改列名、填充缺失值 本节代码:import pandas as pddata1 = pd.rea
2020-12-12 22:05:49
453
原创 pandas数据读取与清洗视频10-python中数据去重、分列、替换
本系列课程适用人群:python零基础数据分析的朋友;在校学生;职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;喜欢图表可视化的朋友;系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!视频地址:python中数据去重、分列、替换 本节代码:import pandas as pddata1 = pd.read_csv('D:/python/课件/dat
2020-12-12 18:14:41
309
1
原创 pandas数据读取与清洗视频09-python中的vlookup|pd.merge()
本系列课程适用人群:python零基础数据分析的朋友;在校学生;职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;喜欢图表可视化的朋友;系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!本节概要:pd.merge()视频地址:pd.merge()方法 本节代码:# 导入工具包,pandas、numpy是数据分析中最常用的两个包import pan
2020-12-12 18:11:53
200
原创 pandas数据读取与清洗视频08-python中的数据透视表df.pivot_table()
本系列课程适用人群:python零基础数据分析的朋友;在校学生;职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;喜欢图表可视化的朋友;系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!本节概要:看excel中最强大的数据透视表在python中如何实现视频地址:python中数据透视表 本节代码:import pandas as pdimport
2020-12-12 13:19:49
224
原创 pandas数据读取与清洗视频07-保存为excel文件
本系列课程适用人群:python零基础数据分析的朋友;在校学生;职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;喜欢图表可视化的朋友;系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!本节概要:python的数据导出为excel视频地址:数据导出为excel 本节代码:# 导入pandas工具包import pandas as pd# 读取
2020-12-11 22:02:46
225
1
原创 pandas数据读取与清洗视频06-python中数据结构(DataFrame、Series)
本系列课程适用人群:python零基础数据分析的朋友;在校学生;职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;喜欢图表可视化的朋友;系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!本节概要:认识DataFrame数据格式视频地址:python中数据结构与数据结构 本节代码:'''# =============================
2020-12-11 21:54:19
150
原创 pandas数据读取与清洗视频05-批量读取excel文件并合并
本系列课程适用人群:python零基础数据分析的朋友;在校学生;职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;喜欢图表可视化的朋友;系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!本节概要:python提升办公效率重要技能之一视频地址:python批量读取数据 本节代码:import pandas as pdimport osos.chd
2020-12-11 21:49:48
325
原创 pandas数据读取与清洗视频04-查看数据
本系列课程适用人群:python零基础数据分析的朋友;在校学生;职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;喜欢图表可视化的朋友;系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!本节概要:简短代码查看数据结构视频地址:python查看数据 本节代码:# 导入pandas工具包import pandas as pd# 读取数据data1
2020-12-11 21:44:59
262
原创 pandas数据读取与清洗视频03-pd.read_csv()读取csv、txt文件
本系列课程适用人群:python零基础数据分析的朋友;在校学生;职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;喜欢图表可视化的朋友;系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!本节概要:数据量较大时一般保存为csv或者txt文件,注意分隔符设置视频地址:python读取csv、txt文件 本节代码:"""# ==============
2020-12-11 21:39:14
1737
原创 pandas数据读取与清洗视频02-pd.read_excel()读取excel文件
本系列课程适用人群:python零基础数据分析的朋友;在校学生;职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;喜欢图表可视化的朋友;系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!本节概要:python能快速读取电脑的excel文件,不用担心一个几十兆的文件打不开视频地址:python读取excel文件 本节代码:"""# ========
2020-12-11 21:29:29
329
原创 pandas数据读取与清洗视频01-Anaconda软件安装及Spyder常用设置
正式开始录制视频课程了,希望能帮助大家,也希望自己录制的越来越好!系列视频目前在b站可看,会定期更新!链接'''# =============================================================================# 2.1 Anaconda软件安装# =============================================================================1 Python开发软件选择
2020-12-10 22:26:39
454
1
原创 Python数据分析基础_第4节:数据清洗
数据清洗# 示例数据import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.randint(10,100,(10,3)), columns=list('ABC'))df.iloc[3:5, 0] = np.nandf.iloc[4:6, 1] = np.nandf.iloc[5:8, 2] = np.nan...
2020-03-21 12:58:15
830
原创 Python数据分析基础_第3节:数据读取与预览
第3节 数据读取与预览读取excel文件丨pandas.read_excel() 丨 ★★★★★Python中读取数据最常用工具包:pandas。语法:pandas.read_excel()pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=Fals...
2020-03-21 12:33:22
899
原创 Python数据分析基础_第2节:Python中数据结构
第2节 Python中的数据结构基本数据格式整数 : int(int32或者int64等)小数 : float(float32或者float64等)字符串 : string布尔值 : True False对象 : objectPython中基本数据结构列表(list) 丨★★★可变的序列中括号列表中的元素可为任何格式# 定义列表ls1 = [1,2,3,...
2020-03-21 12:20:17
239
pyechart地图可视化模板15个
2022-04-25
ppt插件islide
2021-05-27
录屏软件FastStone Capture.zip
2021-05-27
屏幕放大镜,培训用神器
2021-05-27
拼图软件安装包.zip
2021-05-27
Python实现数据校核问题
2022-03-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人