![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
大咖爱爬虫
这个作者很懒,什么都没留下…
展开
-
最全总结 | 聊聊 Python 数据处理全家桶(Mysql 篇)
1. 前言在爬虫、自动化、数据分析、软件测试、Web 等日常操作中,除JSON、YAML、XML 外,还有一些数据经常会用到,比如:Mysql、Sqlite、Redis、MongoDB、Memchache等一般情况下,我们都会使用特定的客户端或命令行工具去操作;但是如果涉及到工程项目,将这部分数据操作集成到代码中使用才是王道接下来,我将分几篇文章,和大家一起聊聊 Python 操作这些数据的最优方案本篇从使用最为广泛的关系型数据库 - Mysql 开始讲起2. 准备首先,...原创 2020-09-22 14:36:34 · 219 阅读 · 1 评论 -
Python - 网易邮箱邮件阅读和删除辅助小脚本
简介:在Windows下的网易邮箱大师客户端中,阅读邮件时,可以使用快捷键Delete删除邮件,然后自动跳到下一封,如果再按一次Delete键,再跳到下一封。为了迅速的阅读邮件,同时删除没有必要的邮件,特地写了如下脚本,自用同时放出来共享。问题:1. 如上图,我积累太多未读邮件,原因是每天邮件太多,根本看不完,数量马上到上限了;2. 我想看到每封邮件;3. 邮件有时内容太过鸡肋,属于知晓型即可,看完即可删除;4. 大多数看完就要删除,一个个删除太麻烦;一句话,需要自动删除我看完之原创 2020-09-12 14:32:27 · 727 阅读 · 1 评论 -
惊爆:当Python代码遇到zip解压炸弹,未做防护的你后悔莫及!
zip解压炸弹在文章的开头,让我们先来介绍一下zip解压炸弹是个 什么妖怪!解压炸弹是指解压缩后能够产生巨大的数据量的可疑压缩文件!默认设置是文件扫描中产生500MB以上解压数据的是“解压炸弹”,实时监控中是100MB,邮件监控是30MB。这样的压缩文件解压缩可能对解压程序造成严重负担或崩溃(可能用来攻击压缩软件以及占用大量电脑资源,或者杀毒软件的解压缩功能)。解压炸弹内,还可能存在病毒,解压中会自启动窃取用户信息如何制作解压炸弹42.zip是很有名的zip炸弹。一个42KB的文件,...原创 2020-09-12 14:11:57 · 1190 阅读 · 0 评论 -
10个可以快速用Python进行数据分析的小技巧
一些小提示和小技巧可能是非常有用的,特别是在编程领域。有时候使用一点点黑客技术,既可以节省时间,还可能挽救“生命”。一个小小的快捷方式或附加组件有时真是天赐之物,并且可以成为真正的生产力助推器。所以,这里有一些小提示和小技巧,有些可能是新的,但我相信在下一个数据分析项目中会让你非常方便。Pandas中数据框数据的Profiling过程Profiling(分析器)是一个帮助我们理解数据的过程,而Pandas Profiling是一个Python包,它可以简单快速地对Pandas 的数据框数据进行探原创 2020-08-31 14:41:22 · 287 阅读 · 0 评论 -
带你用 Python 实现自动化群控(入门篇)
1. 前言群控,相信大部分人都不会陌生!印象里是一台电脑控制多台设备完成一系列的操作,更多的人喜欢把它和 Hui 产绑定在一起!事实上,群控在自动化测试中也被广泛使用!接下来的几篇文章,我将带大家聊聊企业级自动化中,群控正确的使用姿势!本篇先从基础篇开始,聊聊使用「Python + adb」命令如何编写一套群控脚本2. 准备在本机安装Android 开发环境,保证adb 被添加到环境变量将准备好的多台设备,使用数据线( 或者通过 Hub )连接到电脑上...原创 2020-08-17 15:11:06 · 1911 阅读 · 0 评论 -
超能力加持!用Python增强Excel的3大集成方法及用途
没有人能躲过Microsoft Excel ——你要不就很爱它,要不就是很讨厌它。也许在大学毕业之前,Excel只是考试周才会见几面的朋友,关系仅限脸熟。但当工作进入企业之后,你会发现假如Excel消失一个小时,整个世界就会停止运转!Excel几乎无所不能。作为有着多年的投行工作经验的人,每当我觉得已经看完所有内容后,就会碰到另一个别人又整理好的电子表格!Excel的可能性真是不可限量。然而,目前Excel的主要局限在于较大的数据集。数据集越大,用Excel处理时面临的困难就越大。在一个数据驱动、即原创 2020-08-17 15:05:52 · 248 阅读 · 0 评论 -
文章要保存为TXT文件,其中的图片要怎么办?Python帮你解决
前言用 python 爬取你喜欢的 CSDN 的原创文章,保存为TXT文件,不仅查看不方便,而且还无法保存文章中的代码和图片。今天教你制作成 PDF 慢慢看。万一作者的突然把号给删了,也会保存备份。本篇文章视频案例教程的链接地址:https://www.bilibili.com/video/BV1A54y1U78U/知识点:requests css选择器第三方库:requests parsel pdfkit开发环境:版 本:anaconda5.2.0(python3..原创 2020-08-12 14:09:33 · 194 阅读 · 0 评论 -
自动化篇 | 这些自动化场景,批处理脚本完全可以取代 Python!
1. 前言提到自动化解决方案,相信大部分人会想到用 Python 语言,只需要根据功能场景,编写 Python 脚本即可相反,PC 端的Batch 批处理似乎快被忘记了,很多人对它嗤之以鼻,认为这么古老的脚本语言貌似没什么用,Python 似乎可以取而代之相比 Python 脚本,Batch 批处理脚本在某些场景下,使用更简洁、方便、高效,即写即用,不需要依赖 Python 环境,并且可以完全摆脱打包等繁琐步骤2. 批处理基础新建批处理脚本很简单,只需要新建一个文本文件,然后...原创 2020-08-03 12:59:28 · 438 阅读 · 0 评论 -
5000行python代码+可视化60W数据,告诉你知乎用户不为人知的事
一次完整的python分析+可视化展示,是什么样的?比如我想知道知乎用户的学历,是否都是985呢?我还想知道知乎最受关注的话题都是些什么?高端人士都喜欢看什么书呢?“人在XX,刚下飞机?”这句话出现的频率有多高呢?最快的方法是用python爬虫然后加BI可视化分析!python爬虫仅需几步就可以完成:找到网页URL,查看HTML代码 在HTML代码中找到你要提取的数据 写python进行网页请求和解析 存储数据,Excel导出于是我使用10000秒的时间写了5000行代码,爬取了知乎原创 2020-06-05 16:31:39 · 354 阅读 · 0 评论 -
一日一技:Python 格式化字符串,这个方法真的即丝滑又舒服!
一堆堆的烂数据里面有很多的字符串,所以最近老用到格式化字符串...按理说我应该对这种重复性的动作很烦,起初确实是这样,但是现在我乐在其中,为什么呢?肯定不是脑子坏了,因为我最近学会了一个超好用的格式化字符串的方法,那是相当的丝滑,所以我又迫不及待的来分享啦!当然在进入正题之前,还是应该来回顾一下之前我们是怎么格式化字符串的,毕竟我不是一个有了新欢就忘了旧爱的...渣男。第一种就是上古时代的方法,Python2.6 以前的独霸天下的"%"操作符:在我当初刚学 Python...原创 2020-06-05 10:52:24 · 208 阅读 · 0 评论 -
震惊!当Python遇到Excel后,将开启你的认知虫洞
本文主要内容:1. Excel,你为什么如此强大2. 软件开发也需要团队作战3. Excel的集成方案演化4. macOS特有的集成方案:applescript5. Python与Excel集成,有哪些好处6. 了解多个技术领域,可以间接提高自己的IQ7. 提高开发效率的利器:生态渗透8. 上代码:Python到底如何与Excel交互9. 用Python替代VBA本文主要讲Python与Excel的关系以及集成方案,Office家族的其他成员,如Word、PowerP原创 2020-06-05 10:40:13 · 877 阅读 · 0 评论 -
Python小技巧:如何批量更新已安装的库?
众所周知,升级某个库(假设为 xxx),可以用pip install --upgrade xxx命令,或者简写成pip install -U xxx。如果有多个库,可以依次写在 xxx 后面,以空格间隔。那么,如何简单优雅地批量更新系统中全部已安装的库呢?接下来我们直奔主题,带大家学习几种方法/骚操作吧!方法一:pip list 结合 Linux 命令pip list命令可以查询已安装的库,结合 Linux 的一些命令(cut、sed、awk、grep……),可以直接在命令行中实现...原创 2020-05-26 09:55:59 · 805 阅读 · 0 评论 -
10分钟教你用 Python 控制键盘和鼠标
您仍在努力在计算机上双击或提交表单吗?如果我告诉你我可以通过python提前写下相关的操作说明,让它帮你操作鼠标和键盘,但你却在和姐姐聊天,不是很神奇吗?第一,Pyauogui库我们可以首先安装pyauogui库,通过它我们可以编写一些Python脚本来控制鼠标和键盘。例如,可以定义鼠标的点击位置、键盘的输入时间等,实现所有要操作的软件应用程序的自动操作。值得一提的是,它可以...原创 2020-03-27 14:22:02 · 9933 阅读 · 1 评论 -
拒绝被坑!如何用Python和数据分析鉴别刷单!?
发际线堪忧的小Q,为了守住头发最后的尊严,深入分析了几十款防脱洗发水的评价,最后综合选了一款他认为最完美的防脱洗发水。一星期后,他没察觉到任何变化。一个月后,他用卷尺量了量,发际线竟然后退了0.5cm!难道防脱要经历一个物极必反的过程,先脱再长?小Q不甘心,决定继续坚持。两个月后,小Q心如死灰,忍不住和小Z抱怨。【python学习qq裙:10667510 送入门学习资料...原创 2019-12-29 15:38:24 · 607 阅读 · 0 评论 -
代码详解:如何用Python快速制作美观、炫酷且有深度的图表
生活阶梯(幸福指数)与人均GDP(金钱)正相关的正则图python学习交流裙:10667510 最全的学习资料,萌新程序员大本营本文将探讨三种用Python可视化数据的不同方法。以可视化《2019年世界幸福报告》的数据为例,本文用Gapminder和Wikipedia的信息丰富了《世界幸福报告》数据,以探索新的数据关系和可视化方法。《世界幸福报告》试图回答世界范围内影响幸福的因...原创 2019-11-25 11:17:36 · 1397 阅读 · 0 评论 -
程序员的自我救赎,使用python开发性格分析工具
帕累托法则上世纪初,意大利经济学家维尔弗雷多▪帕累托发现了一个有趣的现象:在意大利, 大约80%的财富掌握在大约20%的人手中,这在后来被概括为帕累托法则(80/20法则),即二八法则。而全球财富报告称,中国最富有的那10%的人,拥有中国64%的财富。如此不均衡的贫富差距,各行业的领导者如何能管理好公司,让员工们即努力产出,又能安于现状呢?每个领导者必学的一门课程就是职场心...转载 2019-11-25 11:16:23 · 383 阅读 · 0 评论 -
手把手教你用Python开发机器学习用户交互应用
向大家推荐一款机器学习用户交互工具开发框架——Streamlit,可以使机器学习工程师能更轻松地创建自定义应用程序已在他们的模型中与数据进行交互。 废话不多说,先来看看它有多神奇这是用streamlit开发的Uber数据集交互式仪表板,运行这个Demo前需要先安装streamlitpip install --upgrade streamlitstreamlit run https:...原创 2019-11-01 10:39:04 · 626 阅读 · 0 评论 -
Python 之父从 Dropbox 退休
10 月 30 日,Python 之父 Guido Van Rossum 宣布将从工作六年的 Dropbox 公司退休,他在 Twitter 上转发了 Dropbox 团队写的《Thank you, Guido》公开信长文。Guido 表示,离开 Dropbox,选择退休是一件五味陈杂的事。在该公司担任工程师期间,我学到了很多东西,例如类型注释这种经验。2012 年年底, Gu...原创 2019-11-01 10:35:20 · 205 阅读 · 0 评论 -
伸手党的福利,6个Python练手项目
福利干货,第一时间送达!@图片自制byunsplash本文授权转载自Python之禅禁止二次转载阅读文本大概需要 4分钟。练手项目应该有完成的教程,而不仅仅只是一份代码,如果只是代码,Github成千上万。The Flask Mega-Tutorial教程这个教程是《Flask Web开发》作者 Miguel Grinberg 写的 一个Flask 入门...原创 2019-10-15 14:20:09 · 457 阅读 · 0 评论 -
谁偷偷删了你的微信?别慌!Python 帮你揪出来
不知道你有没有经历过,想联系一位很长时间没有联系的朋友,发现对方很早以前已经把你删除了,而你还一无所知。相信每个人的微信通信录里都存在一些「僵尸粉」,他们默默地躺在联系人列表中,你以为对方还是朋友,那就真是太年轻、太天真的;实际上,对方早就把从好友列表中删了,那如何来筛选出这群人呢?网上的很大量检测僵尸粉的工具,检测的时候会给微信通信录内的每一个好友发送一条检测信息,严重「打扰...原创 2019-10-15 14:18:46 · 289 阅读 · 0 评论 -
利用Python来刷排行榜!Python就是牛逼!
背景theano 是一个python语言的库,实现了一些机器学习的方法,最大的特点是可以就像普通的python程序一样透明的使用GPUmnist主页:http://yann.lecun.com/exdb/mnist/其他大部分资源位于deeplearning向导的主页:deeplearning.net向导:http://deeplearning.net/tutorial...原创 2019-10-15 13:54:54 · 678 阅读 · 0 评论 -
十一假期旅游如何规划路线,让python带你玩转各景点
livandata数据EDTA创始人,没有之一现担任数据EDTA个人公众号董事长兼CEO兼财务兼创作人口号:让大数据赋能每一个人前言数据EDTA的读者们,大家好~国庆将至大家有没有安排出行呢?有没有翻遍了网站,为出行计划焦头烂额呢?哈哈不要着急~今天,笔者与大家分享,身为一个python技术员是一件多么幸福的事情,因为:假期苦短,要用python~笔者也...原创 2019-09-29 13:22:26 · 2143 阅读 · 0 评论 -
聊聊 Python 的单元测试框架(三):最火的 pytest
一、介绍本篇文章是《聊聊 Python 的单元测试框架》的第三篇,前两篇分别介绍了标准库 unittest 和第三方单元测试框架 nose。作为本系列的最后一篇,压轴出场的是Python 世界中最火的第三方单元测试框架:pytest。pytest 项目地址: https://github.com/pytest-dev/pytest它有如下主要特性:assert 断言失败时输出详...原创 2019-09-26 21:20:35 · 442 阅读 · 0 评论 -
学Python,从列表推导到zip()函数,这五种技巧应知应会
最开始学 Python 时,如果我能掌握这些方法,那么代码看起来会更加优美。机器之心已经介绍过很多 Python 教程,从非常齐备的长教程: 一文掌握 Python 关键代码,到一些好玩的小技巧: Python 技巧 101,它们从不同的层面安利着 Python 这门神奇的语言。在本文中,作者介绍了 5 种方法,也许在入门阶段时,我们还不太了解它们,但在实战中这 5 个技巧非常实用。以...原创 2019-09-26 20:31:23 · 222 阅读 · 0 评论 -
用 Python 打包自己的库到 PYPI
背景在我们安装 Python 库的时候,通常我们都是pip install xxx真是又酷炫又方便!那么,当我们自己写了一些自认为不错的库,想要分享给大家使用时,能不能也能做到这样呢?环境需求1、拥有一个 PyPI · The Python Package Index的账号2、已经写好能正常使用的库/方法/项目 (可本地调用)步骤1、创建一个这样的目录结构,我...原创 2019-09-26 20:30:24 · 95 阅读 · 0 评论 -
python编程,你一定需要的环境搭建!
阅读文本大概需要 4 分钟。工欲善其事,必先利其器想要写好代码,首先得安装依赖环境。所以,今天我们来聊一聊写代码之前的工具准备。1.安装pythonlinux和macos下,python是直接安装好的。我用的windows,在这里说说win下安装python的过程。python.org这是官网,下载windows最新版就好了;外网比较慢,可在后台回复编辑器领取。...原创 2019-09-17 14:25:56 · 239 阅读 · 0 评论 -
代码详解:使用Python从不同表格中提取数据
常用的表格数据存储文件格式——CSV,Microsoft Excel,GoogleExcelPython通常称为粘合语言。这个名称归因于人们逐渐开发出的大量接口库和特征,也得益于广泛的使用和良好的开源社区。这些接口库和特征能直接访问不同的文件格式,还可以访问数据源如数据库、网页和各种API。本文的学习内容:从谷歌表格中提取数据从CSV文件中提取数据 从Excel文件中提取数据...原创 2019-09-29 13:41:28 · 1625 阅读 · 0 评论 -
决策树(基于增益率)之python实现
如图,为使用到的公式,信息熵表明样本的混乱程度,增益表示熵减少了,即样本开始分类,增益率是为了平衡增益准则对可取值较多的属性的偏好,同时增益率带来了对可取值偏小的属性的偏好,实际中,先用增益进行筛选,选取大于增益平均值的,然后再选取其中增益率最高的。以下代码纯粹手写,未参考其他人代码,如果问题,请不吝赐教。1,计算信息熵的函数import numpy as np# 计算信息熵...原创 2019-09-30 14:15:45 · 994 阅读 · 0 评论 -
深度剖析为什么 Python 中整型不会溢出?
:point_up_2:“Python猫” ,一个值得加星标的公众号花下猫语:前不久,我应读者提问而写了一篇《Python 的整数与 Numpy 的数据溢出》,简要介绍过 Python 中的整数表示法与数据溢出问题。那篇文章的猎奇/科普成分更大些,文章简短,干货量不足。为了弥补,今天特分享一篇深度的文章,大家一起来学习吧!剧照 |《神雕侠侣》前言本次分析基...原创 2019-09-30 14:18:03 · 841 阅读 · 0 评论 -
用 Python 入门数据科学
使用 Python 开展数据科学为你提供了无限的潜力,使你能够以有意义和启发性的方式解析、解释和组织数据。数据科学是计算领域一个令人兴奋的新领域,它围绕分析、可视化和关联以解释我们的计算机收集的有关世界的无限信息而建立。当然,称其为“新”领域有点不诚实,因为该学科是统计学、数据分析和普通而古老的科学观察派生而来的。但是数据科学是这些学科的形式化分支,拥有自己的流程和工具,并且可以广泛...原创 2019-09-30 15:11:37 · 168 阅读 · 0 评论 -
python高级—— 从趟过的坑中聊聊爬虫、反爬、反反爬,附送一套高级爬虫试题
前言:时隔数月,我终于又更新博客了,然而,在这期间的粉丝数也就跟着我停更博客而涨停了,唉是的,我改了博客名,不知道为什么要改,就感觉现在这个名字看起来要洋气一点。那么最近到底咋不更新博客了呢?说起原因那就多了,最主要的还是没时间了,是真的没时间,前面的那些系列博客都还没填坑完毕的(后续都会填上的)最近有点空余就一直在开发我的项目,最近做了两个项目:IPproxy,看名字就知道啦...原创 2019-09-30 15:12:57 · 6685 阅读 · 2 评论 -
Python大数据分析-看了这篇文章,数据清洗你也就完全掌握了
所有做数据分析的前提就是:你得有数据,而且已经经过清洗,整理成需要的格式。不管你从哪里获取了数据,你都需要认真仔细观察你的数据,对不合规的数据进行清理,虽然不是说一定要有这个步骤,但是这是一个好习惯,因为保不齐后面分析的时候发现之前因为没有对数据进行整理,而导致统计的数据有问题,今天小编就把平时用的数据清洗的技巧进行一个梳理,里面可能很多你都懂,那就当温习了吧!文章大纲:如何更有效的导...原创 2019-09-16 20:06:47 · 4096 阅读 · 0 评论