Python数据分析合集
文章平均质量分 84
使用Python处理数据的实战记录
Xin学数据
数据分析处理小能手,两年数据分析岗相关经验,一年python授课经验~~理论结合实践,做知识的传递者。
展开
-
Pandas DataFrame 写入 Excel 的三种场景及方法
本文主要介绍如何将 pandas 的 DataFrame 数据写入 Excel 文件中,涉及三个不同的应用场景:- **单个工作表写入**:将单个 DataFrame 写入 Excel 表中;- **多个工作表写入**:将多个 DataFrame 写入到同一个 Excel 表中的不同工作表中; - **追加模式写入**:针对已有 Excel 文件,在不覆盖原有数据的前提下,将新的 DataFrame 数据追加至指定的工作表中。原创 2024-03-10 23:57:22 · 10252 阅读 · 0 评论 -
Jupyter notebook 无法链接内核、运行代码
整个过程,首先是验证 Jupyter 出问题是 Vscode 插件的问题,还是整体都出问题,定位到时整体出问题之后,尝试在本地打开它,结果打不开,因为部分包冲突了!解决包冲突问题,终于可以打开,不过依旧还是有问题——无法连接内核,无法执行代码。根据终端报错,逐一排查问题并解决掉:调用错误:升级一下prompt_toolkit,升级ipython;文件冲突:忽略;路径错误:修改…\Lib\s原创 2023-11-12 01:27:37 · 1295 阅读 · 1 评论 -
【续集】业务实战记录4:多维表插入数据任务丢失处理与思考
本文探讨了如何处理在开启`concurrent.futures.ThreadPoolExecutor`多线程执行任务时出现的错误任务。介绍了如何对错误任务进行捕捉和重新提交,以确保所有任务成功执行的方法。该方法其实也可以用于解决上一篇文章所遇到的访问太频繁导致任务丢失的问题。本文提供的代码相对比较通用,没有太多场景的定制,所以在跑实际业务时需要进行定制化,以适配不同的业务场景。原创 2023-06-04 08:40:38 · 492 阅读 · 0 评论 -
业务实战记录4:多维表插入数据任务丢失处理与思考
今天讲一个多线程的东西,开启多线程之后,由于第三方限制导致数据任务丢失。提供了三种解法:单线程、加停顿、多账号多线程循环跑任务。原创 2023-05-19 23:57:56 · 902 阅读 · 0 评论 -
Python 数据分析1:三种工具实现连接、读取MySQL数据库并处理MySQL数据为DataFrame
本文介绍了 pymysql、mysqlclient 和 SQLAlchemy 三种工具如何连接、读取和处理数据。 pymysql 和 mysqlclient 的语法比较相似,处理成 DataFrame 过程相对复杂一些,而 SQLAlchemy 则可以借用 pandas 的`read_sql()`方法更加便捷处理 MySQL 数据。读者可以通过每一小节末尾我封装好的函数,改一改传递的参数,拿来即用!如果觉得有用可以点个赞,如果还觉得不够给力,可以留下您宝贵的意见。原创 2023-03-03 12:36:15 · 7126 阅读 · 1 评论 -
Python和MySQL对比(6):用Pandas 实现MySQL日期函数的效果
1、一个时间自定义加减使用 Timedelta() 或 DateOffset();2、两个时间取差值直接相加减;3、格式化使用 strftime();4、取时间的指定部分,使用对应的属性 year、month、day、hour、minute、second;5、时间戳和时间的转化:to_datetime()、timestamp()。原创 2023-02-20 17:59:58 · 1022 阅读 · 1 评论 -
Python和MySQL对比(5):用Pandas实现MySQL窗口函数的效果
本文主要介绍 MySQL 中的窗口函数count()sum()如何使用pandas实现,同时二者又有什么区别。注:Python是很灵活的语言,达成同一个目标或有多种途径,我提供的只是其中一种解决方法,大家有其他的方法也欢迎留言讨论。原创 2023-01-18 22:28:01 · 1928 阅读 · 0 评论 -
Python和MySQL对比(4):用Pandas 实现MySQL的行列转换语法效果
环境:windows11 64位Python3.9MySQL8本文主要介绍行列转换几个常见的行列转换问题在 Python 和 MySQL 的实现及语法对比,包含了:多列合并为一列、多行合并为一行、一列拆分为多列、一行拆分为多行、多行转多列、多列转多行。注:Python是很灵活的语言,达成同一个目标或有多种途径,我提供的只是其中一种解决方法,大家有其他的方法也欢迎留言讨论。原创 2023-01-13 23:57:57 · 1001 阅读 · 0 评论 -
Python和MySQL对比(3):用Pandas 实现MySQL的子查询、like_regexp、case when_if语法效果
环境:windows11 64位Python3.9MySQL8本文主要介绍 MySQL 中的子查询、like/regexp、case when/if 如何使用pandas实现,同时二者又有什么区别。Python 在实现子查询时,其实就是通过赋值给一个新的变量,然后使用新的变量再进行`merge()`,当然,也可以不用赋值新的变量,直接作为左表或右表的参数值进行传递。Python 在实现`like/regexp`时,则是通过`.str.contains()`,使用正则进行匹配,需要注意的是空值的填原创 2023-01-07 00:20:41 · 1907 阅读 · 1 评论 -
Python和MySQL对比(2):用Pandas 实现MySQL的 union 和 join 语法效果
本文主要介绍 MySQL 中的union和join如何使用pandas实现,同时二者又有什么区别。注:Python是很灵活的语言,达成同一个目标或有多种途径,我提供的只是其中一种解决方法,大家有其他的方法也欢迎留言讨论。原创 2022-12-31 19:07:37 · 1996 阅读 · 0 评论 -
protobuf 的bug:ImportError_ cannot import name ‘builder‘ from ‘google.protobuf.internal‘
今天了解到有一个很强大的数据分析工具streamlit,下载安装完发现启动不了……没错就是本文的bug.什么是protobuf?Protocol Buffers 是 Google 开发的一种数据交换格式,采用了一种类似于 XML 的简单的语法,用于定义数据结构,并且可以将这些结构序列化为二进制文件,以便在不同的编程语言之间进行数据交换。它是一种和语言无关、平台无关、可扩展的序列化结构数据的方法。它比 XML 更快地进行编码解码,可以用更小的文件大小来储存数据。原创 2022-12-26 00:06:13 · 23495 阅读 · 3 评论 -
Python和MySQL对比(1):用Pandas 实现MySQL语法效果
本文主要介绍 MySQL 中的关键字:SELECT、AS、WHERE、DISTINCT、GROUP BY、ORDER BY、HAVING、LIMIT等的查询语句,如何使用pandas实现,同时二者又有什么区别。原创 2022-12-25 01:05:26 · 1896 阅读 · 0 评论 -
matplotlib bug1:TypeError_ ‘tuple‘ object is not callable; matplotlib figsize.
用matplotlib画图的时候,发生了一件很神奇的事,`plt.figure()`不管用了!跑完报错。这个报错咋一看很无厘头,怎么变成了元组对象不能调用`figsize()`?而且将代码复制到其他地方跑的时候并没有问题,唯独这时候跑的时候就有问题。解决方法很简单,重启内核,然后重跑代码,便可正常画图。原创 2022-11-09 16:14:10 · 668 阅读 · 0 评论 -
Tableau 合集2:Table Extension通过python做词云图
本文从Tableau Extension通过Pyhton 制作词云图展开,详细讲解了表扩展的原理和应用,同时还针对该功能和Power BI进行简单做比。原创 2022-11-07 08:45:00 · 958 阅读 · 0 评论 -
jupyter notebook 添加目录/大纲,方便跳转
你是否有过在使用jupyter notebook时,经常会跑一大堆cell,最后经常找不到cell,特别是过了几天再回看的时候?是否想过需要一个目录,或者一个大纲来作为一个索引方便查找内容呢?如果上面的两个痛点你都有遇到过,那么恭喜你,今天遇到了一个解决方法。顺利的话三步便可搞定:输入安装插件命令->输入插件配置命令->插件设置。需要安装一个插件【jupyter_contr...原创 2021-07-18 19:26:43 · 10998 阅读 · 3 评论 -
【转】B站最强学习资源汇总(数据科学,机器学习,python)
【转】强烈推荐,B站最强学习资源汇总(数据科学,机器学习,python)本文转至数据分析V,原文链接:https://blog.csdn.net/Tw6cy6uKyDea86Z/article/details/105591583经过这几个月的居家隔离,想必大多数同学都开始习惯通过线上的方式开展学习了,在线教育领域也因此迎来了一波爆发,竞争异常激烈,既有知名平台如MOOC、学堂在线、网易云课堂等,也有不少初创新星。但要说最受年轻人欢迎的学习资源网站,应该非B站莫属。该平台资源之丰富不用多说..转载 2021-04-05 18:17:55 · 2633 阅读 · 0 评论 -
记一个bug:ImportError: cannot import name ‘comb‘
今晚调用sklearn.model_selection时,报错了!百度了一下,发现是scipy.misc中的comb位置已经移到scipy.special中去……原创 2021-03-29 23:16:27 · 2482 阅读 · 2 评论 -
Tushare接口更新问题
一、报错提示使用tushare会返回“本接口即将停止更新,请尽快使用Pro版接口:https://waditu.com/document/2”复制pro接口的链接,然后打开网页,注册一下账户,然后点击头像的个人主页,然后点击接口token即可查自己的token。注意:pro版的tushare没有get_stock_basics()函数二、使用token在调用时,添加token,两种方法:方法1:import tushare as tsts.set_t...原创 2020-11-28 23:42:22 · 12642 阅读 · 2 评论 -
到底什么是数据中台?
到底什么是数据中台?”导读:数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 3 月 15 日 ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会者的热烈关注。如今似乎人人都在提数据中台,但却不是所有人都清楚数据中台到底意味着什么。数据中台是只有大厂才需要考虑的高大上的概念吗?普通企业该不该做数据中台?数据中台的出现会给现有数据从业者们带来颠覆式的挑战吗?带着上述问题,InfoQ 在技术...转载 2020-11-03 11:45:09 · 931 阅读 · 1 评论 -
意外收获一个有趣的数据统计网站!Gapminder
Gapminder是一个关于世界数据的网站,网站链接:https://www.gapminder.org/下面是一个关于世界各国的寿命变化的统计例子:https://www.gapminder.org/tools/?from=world#$state$time$value=2019&delay:148.54193548387082;&entities$filter$;&dim=geo;&marker$axis_x$domainMin:null&domainMa原创 2020-10-12 20:26:37 · 2467 阅读 · 0 评论 -
使用tableau连接MySQL本地服务器
一、软件配置1.1 下载MySQL程序下载链接:https://dev.mysql.com/downloads/mysql/,推荐MySQL 8.0版本1.2 下载MySQL驱动ODBC下载链接:https://dev.mysql.com/downloads/connector/odbc/,对应使用MySQL 8.0版本。下载完都打开程序安装一下,可以使用默认安装,一路下一步(next)。二、tableau配置打开tableau程序,然后再左侧栏单击MySQL;在原创 2020-10-10 19:16:00 · 2683 阅读 · 0 评论 -
用户画像及其作用
用户画像分成两种:一种是Persona,用户角色,是描绘抽象一类自然人的属性;一种是Profile,用户的形象概况等,是描述个体颗粒度更小的属性。Persona用户角色Persona用户角色是通过调研问卷、电话访谈等手段获得用户的定性特征。为什么要设置这样一种名词?我们首先要明确一个前提:用户间有差异。因为存在差异,所以需要描述。当我们讨论产品、需求、场景、用户体验的时候,究竟在围绕谁在讨论?不能是无根之木吧。用户角色应运而生,将焦点定位在一个抽象出来的人上面,避免浪费很多口水。转载 2020-09-26 17:44:19 · 2035 阅读 · 0 评论 -
5种常用的相关分析方法
转自“蓝鲸网站分析博客”Read more:http://bluewhale.cc/2016-06-30/analysis-of-correlation.html#ixzz6Z6wgZneb相关分析(Analysis of Correlation)是网站分析中经常使用的分析方法之一。通过对不同特征或数据间的关系进行分析,发现业务运营中的关键影响及驱动因素。并对业务的发展进行预测。本篇文章将介绍5种常用的分析方法。在开始介绍相关分析之前,需要特别说明的是相关关系不等于因果关系。相关...转载 2020-09-26 10:44:54 · 2381 阅读 · 0 评论 -
七种常见的回归分析
什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通 事 故数量之间的关系,最好的研究方法就是回归。回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。我会在接下来的部分详细解释这一点。我们为什么使用回归分析?如上所述,回归分析估计了两个或多个变量之间的...转载 2020-09-26 10:09:32 · 43400 阅读 · 0 评论 -
8大数据结构介绍,一看就懂!
目录数据结构分类1、数组2、栈3、队列4、链表5、树6、散列表7、堆8、图数据结构分类数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成 。常用的数据结构有:数组,栈,链表,队列,树,图,堆,散列表等,如图所示:每一种数据结构都有着独特的数据存储方式,下面为大家介绍它们的结构和优缺点。1、数组数组是可以再内存中连续存储多个元素的结构,在内存中的分配也是连续的,数组中的元素通过数组下标进行访问,数组下标从0开始。例如转载 2020-09-25 13:17:23 · 1088 阅读 · 0 评论 -
python连接mysql,使用mysqldb和mysqlclient、pymysql三者的异同
一、三者的异同1.1 简单介绍1.MySQLdb和mysqlclient 的区别:MySQLdb只支持python 2.x 版本,mysqlclient 是MySQLdb的一个分支,解决了python 3.x 的兼容问题。2.mysqlclient 1)是一个C扩展模块,编译安装可能会导致报各种错误,明显没有pymysql方便 2)速度快;3.pymysql 1)纯Python实现的,安装简单(直接pip安装) 2) 由于纯Pyth...原创 2020-09-20 16:51:19 · 4855 阅读 · 0 评论