![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
大咖爱爬虫
这个作者很懒,什么都没留下…
展开
-
专为人工智能和数据科学而生的Go语言,或将取代Python
时间回到30年前,Python 首次亮相。花了20年时间,Python才获得开发者的认可。来到 2019 年,Python已经成为开发人员第二喜欢的语言。加python学习qq群:10667510 送python零基础入门学习资料+99个源码在过去的5年时间里,Python 成为了机器学习和数据科学开发人员的首选编程语言。可以预见的是,在未来几年内,Python在这些领域依然占据主导地位。但与较新的语言相比,它有一些严重的缺点,这对2020年的开发者来说可能是个障碍。现在正是研究Pyt原创 2020-10-15 13:15:30 · 717 阅读 · 1 评论 -
Python爬虫练习:爬取800多所大学学校排名、星级等
前言国内大学最新排名,北大反超,浙大仅第四,中科大跌至第八时隔五年,“双一流”大学即将迎来首次大考,这也是继改变高校评断标准之后,第一次即将以官方对外发布,自然是引来了许多人的关注。最近,有许多不同机构发布的国内高校排名,但彼此之间的差异很大,网友之间的争议也很大。项目目标爬取高三网大学排名,并保存目标网址http://m.gaosan.com/gaokao/265440.html基本环境配置python 3.6pycharm爬虫代码导入工具imp原创 2020-09-25 14:06:58 · 606 阅读 · 0 评论 -
微信群总是有人发广告?看我用Python写一个自动化机器人消灭他!
序幕微信群牛皮癣,指的是在微信群里毫无下限的群发小广告的用户,是微信群主最痛恨的一波人。如果熟悉早起的读者可以知道我有一个技术交流群,但是自从建群以来就饱受小广告的困扰。他们伪装成正常人混进群然后不停的发送广告轰炸,严重的打乱了群内的技术交流气氛:point_down:或者是一声不吭的去骚扰每一个群成员:point_down:虽然不清楚是什么能够驱使他们这样不折不扣的努力成为最强微信群牛皮癣(可能是钞能力),但在经历太多次的骚扰之后,我开始思考是否可以用Python消灭他们。第一回合其实一开始的原创 2020-09-16 20:13:20 · 1906 阅读 · 0 评论 -
Python - 网易邮箱邮件阅读和删除辅助小脚本
简介:在Windows下的网易邮箱大师客户端中,阅读邮件时,可以使用快捷键Delete删除邮件,然后自动跳到下一封,如果再按一次Delete键,再跳到下一封。为了迅速的阅读邮件,同时删除没有必要的邮件,特地写了如下脚本,自用同时放出来共享。问题:1. 如上图,我积累太多未读邮件,原因是每天邮件太多,根本看不完,数量马上到上限了;2. 我想看到每封邮件;3. 邮件有时内容太过鸡肋,属于知晓型即可,看完即可删除;4. 大多数看完就要删除,一个个删除太麻烦;一句话,需要自动删除我看完之原创 2020-09-12 14:32:27 · 721 阅读 · 1 评论 -
惊爆:当Python代码遇到zip解压炸弹,未做防护的你后悔莫及!
zip解压炸弹在文章的开头,让我们先来介绍一下zip解压炸弹是个 什么妖怪!解压炸弹是指解压缩后能够产生巨大的数据量的可疑压缩文件!默认设置是文件扫描中产生500MB以上解压数据的是“解压炸弹”,实时监控中是100MB,邮件监控是30MB。这样的压缩文件解压缩可能对解压程序造成严重负担或崩溃(可能用来攻击压缩软件以及占用大量电脑资源,或者杀毒软件的解压缩功能)。解压炸弹内,还可能存在病毒,解压中会自启动窃取用户信息如何制作解压炸弹42.zip是很有名的zip炸弹。一个42KB的文件,...原创 2020-09-12 14:11:57 · 1180 阅读 · 0 评论 -
超能力加持!用Python增强Excel的3大集成方法及用途
没有人能躲过Microsoft Excel ——你要不就很爱它,要不就是很讨厌它。也许在大学毕业之前,Excel只是考试周才会见几面的朋友,关系仅限脸熟。但当工作进入企业之后,你会发现假如Excel消失一个小时,整个世界就会停止运转!Excel几乎无所不能。作为有着多年的投行工作经验的人,每当我觉得已经看完所有内容后,就会碰到另一个别人又整理好的电子表格!Excel的可能性真是不可限量。然而,目前Excel的主要局限在于较大的数据集。数据集越大,用Excel处理时面临的困难就越大。在一个数据驱动、即原创 2020-08-17 15:05:52 · 245 阅读 · 0 评论 -
原理+代码|手把手教你使用Python实战反欺诈模型
本文将基于不平衡数据,使用Python进行反欺诈模型数据分析实战,模拟分类预测模型中因变量分类出现不平衡时该如何解决,具体的案例应用场景除反欺诈外,还有客户违约和疾病检测等。只要是因变量中各分类占比悬殊,就可对其使用一定的采样方法,以达到除模型调优外的精度提升。主要将分为两个部分: 原理介绍 Python实战 原理介绍与其花大量的时间对建好的模型进行各种调优操作,不如在一开始就对源数据进行系统而严谨的处理。而数据处理背后的算法原理又常是理解代码的支撑。所以本节将详细介绍不平衡...原创 2020-08-13 13:36:43 · 277 阅读 · 0 评论 -
一日一技:Python 格式化字符串,这个方法真的即丝滑又舒服!
一堆堆的烂数据里面有很多的字符串,所以最近老用到格式化字符串...按理说我应该对这种重复性的动作很烦,起初确实是这样,但是现在我乐在其中,为什么呢?肯定不是脑子坏了,因为我最近学会了一个超好用的格式化字符串的方法,那是相当的丝滑,所以我又迫不及待的来分享啦!当然在进入正题之前,还是应该来回顾一下之前我们是怎么格式化字符串的,毕竟我不是一个有了新欢就忘了旧爱的...渣男。第一种就是上古时代的方法,Python2.6 以前的独霸天下的"%"操作符:在我当初刚学 Python...原创 2020-06-05 10:52:24 · 205 阅读 · 0 评论 -
用Python爬取招聘网站数据,让学习、求职信息公开透明化~
1、项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大。因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于在校生,还是对于求职者来说,都显得很有必要。本文基于这个问题,针对51job招聘网站,爬取了全国范围内大数据、数据分析、数据挖掘、机器学习、人工智能等相关岗位的招聘信息。分析比较了不同岗位的薪资、学历要求;分析比较了不同区域、行业对相关人才的需求情况;分析比较了不同岗位的知识、技能要求等。做完以后..转载 2020-06-05 10:33:04 · 1358 阅读 · 0 评论 -
Python爬虫之获取淘宝商品信息
首先需要先导入webdriverfrom selenium import webdriver复制代码webdriver支持主流的浏览器,比如说:谷歌浏览器、火狐浏览器、IE浏览器等等然后可以创建一个webdriver对象,通过这个对象就可以通过get方法请求网站driver = webdriver.Chrome() # 创建driver对象driver.get('https://www.baidu.com') # 请求百度复制代码接下来可以定义一个方法:search_produ原创 2020-05-26 09:54:59 · 4146 阅读 · 1 评论 -
叼炸天的库! 自动补全 Python 代码,能节省 60% 敲码时间
近日,Reddit 上的一篇帖子引起了网友的热议。帖子作者「mlvpj」称:「我们使用深度学习完成了一个简单的项目,可以自动进行 Python 代码补全。」根据介绍,该项目基于 LSTM 模型,训练后,负责对代码的缺失部分进行补全。评价模型的方法是判断节省了多少的按键信息——即模型给出长度为 L 的代码建议,如果和真实的代码匹配,则节省 L - 1 个键入操作。实验结果说明,大约可以节省 30%-50% 的时间键入成本。作者在帖子中表示,他们接下来会尝试不同的架构,并提高推断的表现。而现在...原创 2020-05-19 08:57:18 · 201 阅读 · 0 评论 -
Python 的一个脚本错误可能会废掉 150 多个项目!
最近,一组用于计算分析的Python脚本中的一个编程错误可能会导致150篇已发表的化学研究论文作废,而造成这种差异性的罪魁祸首是该脚本使用了Python的glob模块......python学习裙:10667510,最全学习资料,萌新程序员大本营以下为译文:最近,一组用于计算分析的Python脚本中的一个编程错误可能会导致150篇已发表的化学研究论文作废。夏威夷大学在最...原创 2019-11-27 11:31:57 · 155 阅读 · 0 评论 -
【Python教程】05.模块与API
大纲Python环境:我们回到第一次课上没有说到的venv这个文件夹。这个文件夹其实就是这个项目所使用的Python环境目录。项目实际执行的python在venv目录下。为什么不是我们安装Python时的目录?Pycharm在默认创建项目时会根据我们安装的Python创建一个虚拟环境在项目下。这个虚拟环境是这个项目专用的,是干净的,可以不受其他项目的...原创 2019-11-27 11:30:48 · 481 阅读 · 0 评论 -
Python项目之容器化实践(四) - Kubernetes新手篇
前言Kubernetes (音 kubə'netis) 这个名字来自希腊语,意思是「舵手」或「领航员」,它是一个起源于 Google 的开源项目,允许自动化部署、管理和扩容容器化应用,它现在已成为容器编排的事实标准。其实 Kubernetes 的简称 k8s 存在感更强,这个简称缘由是单词中间刚好是 8 个字母,这是一种数字缩写 (Numeronym) 方式。类似的如internatio...原创 2019-10-22 16:09:22 · 1231 阅读 · 0 评论 -
利用Python搞定女朋友的小情绪~
脱单狗福利!每天不同时间段给女友定时给女友发消息,不错过早上起床、中午吃饭、晚上吃饭、晚安时间!有时候,你很想关心她,但是你太忙了,以至于她一直抱怨,觉得你不够关心她。你暗自下决心,下次一定要准时发消息给她,哪怕是几句话,可是你又忘记了。你觉得自己很委屈:sob:,但是她又觉得你不负责。现在,再不用担心了,用Python就可以给女友定时发提示消息了,而且不会漏过每一个关键时刻,每...原创 2019-10-15 14:26:00 · 1628 阅读 · 2 评论 -
Python全栈之路系列之基于socket实现文件上传
粘包在实现发送文件功能之前我们先来理解下粘包的问题,下面有两张图,我觉得很清晰的就可以理解到了。正常情况下发送文件第一步:客户端把获取到的文件总大小(size=65426)先放到缓冲区,然后发送给服务端 第二步:此时客户端接收到的文件总大小就是65426粘包的问题下发送文件第一步:客户端把获取到的文件总大小(size=65426)先放到缓冲区 第二步:此时可能由于...原创 2019-10-15 13:49:21 · 274 阅读 · 0 评论 -
用一行Python进行数据收集探索
简易的Pandas之路任何使用Python数据的人都会熟悉Pandas包。Pandas是大多数行和列格式数据的go-to包。如果你没有Pandas,请确保在终端中使用pip install安装:pip install pandas.Python学习qq群:10667510,送全套爬虫学习资料与教程~现在,让我们看看Pandas包中的默认方法可以做些什么:以下内容写给...原创 2019-10-06 20:26:16 · 479 阅读 · 0 评论 -
代码详解:使用Python从不同表格中提取数据
常用的表格数据存储文件格式——CSV,Microsoft Excel,GoogleExcelPython通常称为粘合语言。这个名称归因于人们逐渐开发出的大量接口库和特征,也得益于广泛的使用和良好的开源社区。这些接口库和特征能直接访问不同的文件格式,还可以访问数据源如数据库、网页和各种API。本文的学习内容:从谷歌表格中提取数据从CSV文件中提取数据 从Excel文件中提取数据...原创 2019-09-29 13:41:28 · 1622 阅读 · 0 评论 -
python编程,你一定需要的环境搭建!
工欲善其事,必先利其器想要写好代码,首先得安装依赖环境。所以,今天我们来聊一聊写代码之前的工具准备。1.安装pythonlinux和macos下,python是直接安装好的。我用的windows,在这里说说win下安装python的过程。python.org这是官网,下载windows最新版就好了;外网比较慢,可在后台回复编辑器领取。你可以选择安装到默认位置,也...原创 2019-09-15 15:24:19 · 625 阅读 · 0 评论 -
大数据日报(20190910):苹果调整App Store算法降低自身应用排名,Python官宣2020年起停止对Pyth...
苹果调整App Store应用商店算法以降低自身应用排名苹果公司高管菲尔·席勒(Phil Schiller)和埃迪·库伊(Eddy Cue)在接受《纽约时报》采访时透露,该公司已经调整了App Store应用商店的算法,目的是“阻止”自己的各个应用过多地出现在搜索结果中。(新浪科技)Python官宣,将于2020年1月1日正式停止对Python2.0官方支持在 python.or...原创 2019-09-15 15:22:33 · 262 阅读 · 0 评论