数据分析与爬虫
数据分析与爬虫系列文章
奶糖猫Esong
这个作者很懒,什么都没留下…
展开
-
安利十二个常用的IPython魔法命令
不能以偏概全哈,就我个人而言,在日常编程中一般都会用到两个编译器——Pycharm和Jupyter,在刷算法、写爬虫时会用到前者,因为我习惯用Pycharm里的Debug功能调试,很容易找出代码中的Bug。而进行数据分析、机器学习时就会用到后者,因为Jupyter编译器利用的IPython是一种交互式计算和开发环境,对数据的可视化十分友好,这类单元格的形式每一步都有运行结果,便于整理自己思路,并且很大程度上节约了运行时间,在调试的时候只需要运行出错的部分代码,而不是全部。IPython中有一些特有的魔法原创 2020-06-30 09:06:47 · 945 阅读 · 0 评论 -
Python数据分析——《隐秘的角落》开播之后就没下过热搜?
不会吧、不会吧,不会还有朋友没看《隐秘的角落》吧,如果没有断网的话,最近朋友圈、微博等都应该被这部只有十二集的国产网剧刷屏了。开播初豆瓣评分就已经达到9.0,甚至一度窜到9.2,要知道国产电视剧过9分的都寥寥无几,更何况还只是一部网剧,可能绝大部分人与这部剧本无缘,但是选择看剧的契机也正是这超高的评分。经过朋友圈和微博的强烈安利,又在高评分的诱惑下,和家人一天刷完了这部神剧,看完这部剧主要有两个感受:全员演技都在线细~真的细、细到爆炸平时看电视剧不多,国产剧就更少了,最大的一个感受就是有些演技真原创 2020-06-28 10:26:26 · 16499 阅读 · 42 评论 -
Python做一份简易旅行攻略——疫情之后,若条件允许,可愿意用一场旅行“弥补”自己
诞生背景2019年的春节假期会给我们留下深刻的印象,没有拜年、没有家庭聚餐、没有三五好友的寒暄嬉闹;2020年的春天也会给我们这代人留下深刻的印象,非典时期的我们还是两三岁傻乎乎的孩子,却在这个春天迎头撞上了新冠,选择宅在家大概是我们普通人仅有的贡献,虽经历了确诊人数的峰值时期,但也见证了这个曲线逐渐缓和,渐渐“春暖了雪也融了”。今天是假期的第55天,是我宅在家中的第40天,也是网课开始的第5...原创 2020-02-29 13:44:55 · 5790 阅读 · 10 评论 -
python数据分析——择偶标准与黑名单
诞生背景不偏不倚,恰好单身20年,这对于一个优秀的人是特别苦恼的,我也渐渐陷入了自我怀疑中,可是想来想去除了与高 富 帅 不太搭边外,我也没有什么致命的缺点呀,慢慢地,朋友都知道我为何而愁:可能我还是没有意识到自身的问题,所以开始网上求知,刚好在微博上看见了这么几个话题:这择偶标准、择偶标准黑名单都齐了,只要我能从择偶标准黑名单的阵地转移到择偶标准上,难道还会为没有女朋友而发愁吗?数据...原创 2020-02-22 18:30:09 · 860 阅读 · 0 评论 -
Python数据分析实战——口红的分析与推荐——情人节篇
前言明天就是二·一四情人节了,真的是为正在恋爱中的情侣而难过,2020年的情人节注定是要陪伴自己的家人,莫担心,视频情人节、电话情人节、微信情人节都是不错的选择,好处呢?肯定是省钱、难忘且提醒自己竟然有一个女朋友(男朋友);不得不说,这个情人节对单身狗可能会友好一些,至少朋友圈的平静可以让自己少吃些单身solo20年的苦。每次一到情人节,广大男性同胞却十分担忧,想要讨女朋友欢心的同时又不想将自...原创 2020-02-13 18:01:42 · 4330 阅读 · 5 评论 -
Python数据分析——世界自杀概况分析
诞生背景2019下半年的韩国娱乐圈是十分灰暗的,50天内崔雪莉、具荷拉、车仁河三位韩国艺人离世,在某种高压下,很多韩国艺人不敢休息,不敢说累,不敢喊痛,渐渐可能会患上抑郁症;据报道,这三位艺人生前都患有抑郁症,而自杀的原因可能也是抑郁症在作祟。除了韩国,邻国日本的自杀概况也是比较堪忧,但近10年内,日本的自杀人数逐年降低,2019年日本的自杀人数为19959人,创下1978年开始统计以来的最低...原创 2020-02-01 19:09:46 · 7895 阅读 · 2 评论 -
Python实现淘宝爬取——奶粉销售信息爬取及其数据可视化
简介双十一刚过,TB的销售额又创下了新高,我也为2000+亿做出了贡献恰巧买了一袋德运奶粉,味道还不错。我就在想,接触爬虫也有两个多月了,还没有爬过TB这种经典的网站,借着劲头就爬取了一下TB上奶粉的销售信息爬虫在淘宝框搜索奶粉,就会弹出各式各样的奶粉可以爬取的有用信息:价格、销售量、商品名称、店铺、地址淘宝是一个典型用json格式存储信息的网址,通俗讲,json格式就是一层套一层的...原创 2019-11-27 16:46:19 · 7178 阅读 · 14 评论 -
python3基于selenium实现模拟登陆——豆瓣电影
配置环境selenium安装:pip install seleniumchromedriver下载: http://chromedriver.storage.googleapis.com/index.html注意:Chrome浏览器应与驱动版本对应版本对应表参照:https://blog.csdn.net/L1542334210/article/details/101398105代码正文...原创 2019-10-24 18:48:14 · 631 阅读 · 0 评论 -
用Python分析一下那些“吸粉”无数的高票房电影
1、前言孩子:妈妈我想看电影妈妈:看,看大片,480部够吗?孩子:够了,谢谢妈妈,妈妈真好奈何烂片层出不穷,电影荒就成了常事,不如回归经典,看一看电影历史上票房排行位于前端的一些电影,票房高的电影不一定精彩,但烂片票房低则是必然本文基于requests和BeautifulSoup爬取了电影历史票房Top480的基本信息,在观察这份文件同时也会考虑,票房的高低和评分是否存在一定的关系呢?与...原创 2019-10-19 19:50:22 · 2623 阅读 · 1 评论 -
python基于pandas数据分析实例——游戏的开发与销售
游戏开发与销售分析实例1、简介2、需要用到的库3、代码正文1、简介上一篇博客只绘制了饼图和散点图,而且数据分析也不够全面,这篇是Plus这次我们也是利用在kaggle上的一个比较热门的数据附上链接:Gamesales这次数据分析相对上一篇来说比较全面,我准备了四组图:1.开发游戏数量前二十——条形图2.各个地区销售额变化——折线图3.排行前十的出版商——空心饼图4.游戏类型与销售...原创 2019-10-08 07:28:30 · 2626 阅读 · 2 评论 -
python基于pandas数据分析实例——FIFA球员数据简单分析
pandas+matplotlib=简单数据分析1、简介2、需要用到的库3、代码正文1、简介最近在学习数据分析,这也是python比较热门的一个方向,结合爬虫能分析许多东西,数据是在kaggle上找到的,上面很多实用性很强的数据,每个数据也有国外大佬做的分析实例,可以借鉴kaggle本文的分析有两部分:一、运动员的年龄分布。二、运动员能力与薪资的分布关系!!!本文所有代码都是在pytho...原创 2019-10-02 19:13:53 · 4398 阅读 · 6 评论