自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 地理可视化绘制——中国分省多年GDP绘制

1. 绘图目的、数据类型及数据来源绘图目的:有时,需要对不同国家或地区的某项指标进行比较,可简单通过直方图加以比较。但直方图在视觉上并不能很好突出地区间的差异,因此考虑地理可视化,通过地图上位置(地理位置)和颜色(颜色深浅代表数值差异)两个元素加以体现。在本文案例中,基于第三方库pyecharts,对中国各省2010-2019年的GDP进行绘制。数据类型:基于时间和截面两个维度,可把数据分为截面数据、时间序列及面板数据。在本文案例中,某一年各省的GDP属于截面数据,多年各省的GDP属于面板数据。因此,按

2021-03-14 12:18:01 1330

原创 用Python分析元旦旅游景点,告诉你哪些地方性价比较高

元旦马上就要到了,难得的3天小长假,玩肯定是要去玩的,但去哪儿玩是个问题。于是,J哥以厦门为例,利用Python获取了去哪儿网的相关景点数据,包括景点名称、地区、评分、销量、价格、地理分布等字段,可视化这些数据并作简单分析,以求找到性价比较高的景点。数据获取去哪儿网数据采集相对简单,找到真实url后,构造参数拼接,用request请求到json数据,以追加模式将数据存储为csv文件即可。爬虫核心代码如下:# -*- coding = uft-8 -*-# @Time : 2020/12/25 9

2020-12-29 22:01:16 1464 1

原创 Python分析《奔跑吧》21307 条热评,看看大家都在吐槽些什么

前言《奔跑吧》第五季已经播出两期了,节目以“黄河生态经济带”沿线地区为依托,通过创新游戏设置、直播带货扶贫等新形式,展现黄河流域的重要地位,描绘黄河生态经济带城市“文化之美”。然而,网友貌似并不买账,邓超、郑凯等退出跑男后,收视明显不如以前,而吐槽貌似有所增加。为了了解吃瓜群众们对于跑男的看法,我爬了爬腾讯视频关于跑男的评论,并做了简单文本可视化分析。数据获取腾讯视频评论要点击查看更多评论才能加载更多数据,很明显是一个动态网页,评论内容使用了Ajax动态加载技术。因此,我们需要找到真实URL,然后再

2020-12-29 14:17:50 600 1

原创 实战|手把手教你利用Python网络爬虫获取新房数据

项目背景大家好,我是J哥。新房数据,对于房地产置业者来说是买房的重要参考依据,而对于房地产开发商来说,也是分析竞争对手地产项目的绝佳途径。今天J哥以惠民之家为例,手把手教你利用Python将网站上的新房数据批量抓取下来,可以抓取到楼盘名称、销售价格、主力户型、开盘时间、容积率、绿化率等41个字段。项目目标惠民之家首页网址:http://www.fz0752.com/新房网址:http://www.fz0752.com/project/list.shtml总结1.本文基于Pytho

2020-12-23 14:18:53 1256 4

原创 用Python分析北京蛋壳公寓租房数据

数据获取蛋壳公寓网页结构相对简单,数据结构统一,简单的url翻页构造即可。本文用request请求到数据,用xpath对返回的数据进行解析,最后以追加模式将数据存储为csv文件。爬虫核心代码如下:def get_danke(href): time.sleep(random.uniform(0, 1)) #设置延时,避免对服务器产生压力 response = requests.get(url=href, headers=headers) if response.status_co

2020-12-23 11:19:23 767

原创 天冷了,我用Python爬取京东4950件羽绒服数据并可视化

前言大家好,我是J哥。前不久,我还穿着短袖羡慕着北方的下雪气氛。结果就在上周,深圳也迎来了降温,并成功加入“降温群聊”!为了抵御严寒,我特地爬了下京东的羽绒服数据,以备不时之需。为啥不时天猫呢,理由很简单,滑块验证有点麻烦。本文数据集可在微信公众号「菜J学Python」后台输入「羽绒服」免费获取。数据获取京东网站是一个ajax动态加载的网站,只能通过解析接口或用selenium自动化测试工具去爬取。关于动态网页爬虫,本公众号历史原创文章介绍过,感兴趣的朋友可以去了解一下。本次数据获取采用sel

2020-12-03 19:13:17 1253

原创 用Python分析《令人心动的offer2》的13万条弹幕,网友们都在吐槽什么?

前言大家好,我是J哥。综艺,是我们劳累了一天的放松方式,也是我们饭后的谈资。看着自己喜欢的综艺,时光足够美。而《令人心动的offer 》,就是一个不错的综艺选择。有人说它让自己更自卑了,而我觉得挺有意思。《令人心动的offer 》目前为止已经播出了两季,第一季在豆瓣为8.3分,共有5万余人评分,第二季目前评分低于第一季,评分仅7.1分。本文通过爬取《令人心动的offer》第二季13万+弹幕,进行可视化分析和情感分析,完整代码后台回复「offer」即可免费获取。数据获取《令人心动的offer》

2020-12-01 20:30:28 738 3

原创 深圳市蛋壳公寓租房数据分析

前言2020年以来,受疫情冲击、政策监管收紧等多重因素影响,长租公寓可谓路途坎坷。根据中国房地产报不完全统计,今年最近几个月时间里,暴雷的长租公寓累计达到20多家,数十万租客受到影响。蛋壳公寓,凭借着长租公寓风口,用5年时间,做到了分散式长租公寓第二,仅次于自如。于2020年1月17日在纽约证券交易所正式挂牌上市,成为2020年登陆纽交所的中国第一股。然而,风口退去,加之突如其来的疫情,于近日暴雷,已有很多文章对蛋壳公寓的商业模式、租金贷、管理方式等进行了深入分析。本文仅从数据角度出发,爬取了蛋壳公.

2020-11-22 11:11:12 1419 1

原创 实战|教你用Python+PyQt5制作一款带有界面的B站爬虫小程序

前言大家好,我是J哥。目前,市场上有大量 Python图形用户界面(GUI)开发框架可供选择,如wxpython 、pyqt5、Gtk、Tk等。本文将用Python结合PyQt5制作一款B站视频数据爬虫小程序,可以通过输入关键字、页码以及选择存储路径后,下载相应的数据,演示效果如下:以下将详细介绍这个GUI工具的制作方法,如需本文完整代码,后台回复「GUI」。开发环境Python3PycharmPyQt5Qt Designerrequests准备工作首先,新建一个bilibili.

2020-11-15 19:56:12 2163 1

原创 Python爬取中原地产香港26281套在售二手房数据并分析

啊啊啊啊技术实现数据获取数据清洗数据可视化房价高企原因土地人口政策社会

2020-11-05 22:39:22 1469 3

原创 用Python实现《沉默的真相》3万+弹幕情感分析

大家好,我是J哥。以前我写过不少文本数据分析,比如《八佰》影评分析、《三十而已》热评分析等,但基本停留在可视化分析层面。本文将运用文本挖掘技术,对最近热播剧《沉默的真相》弹幕数据进行深入分析,希望对大家有一定的启发。本文数据分析思路及步骤如下图所示,阅读本文需要10min,您可在「菜J学Python」公众号后台回复文本挖掘获取弹幕数据进行测试。一、数据获取如果您对弹幕数据采集感兴趣,可查看J哥往期原创文章「弹幕爬虫,看这一篇就够了!」,本文仅提供核心代码:from xml.dom.m

2020-11-05 22:39:02 4242 6

原创 用Python评测三种批量查询经纬度的方法,你pick哪一种?

大家好,我是J哥。不知道大家会在什么场合使用地图可视化,对我来说地图可视化的优点除了它可以展示海量的位置数据,迅速直观的看出数据分布的情况,从而让读者快速抓住重点,更重要的是地图可视化可以很酷很炫,给人一种赏心悦目的舒适感。J哥做了如下热力图和气泡图的地图可视化,感觉效果还是可以的。制作此类可视化的前提是获得海量的经纬度数据,数据从何而来?当然是腾讯地图、高德地图和百度地图这些大家耳熟能详的平台。所以今天给大家分享用Python批量获取经纬度的三种方法,并分别评测它们的效率,一、腾讯地图首先,

2020-09-13 10:41:58 2538 1

原创 用Python可视化18万条《八佰》影评,看看观众怎么说?

大家好,我是J哥。最近《八佰》这部电影比较火,上映仅15天就已斩获22亿票房。对于沉寂了半年、影院上座率仍限定在50%的电影市场而言,这样的成绩出人意料。从猫眼电影官网可以看到,《八佰》吸引了100万人的评论,获得了9.2分的高口碑。一向好奇的J哥产生了一些疑惑,这些人到底在评论些啥?哪些地方的人评论最多?针对不同演员角色的评论内容有什么不同?于是,J哥用Python采集了《八佰》18万条观众影评并做可视化分析,数据采集区间为2020年8月21日9点至2020年8月30日24点。公众号后台回复八佰.

2020-09-04 22:24:52 1735

原创 用Python分析广州房地产市场

房地产市场分析逻辑大家好,我是J哥。最近入行地产,导致有一阵时间没有更文了,在此向关注我的朋友道个歉。这次我想结合房地产投资业务,针对广州这一城市,运用Python来进行数据分析,以期能为大家提供一点分析思路。首先,我们为什么要分析房地产市场,房地产行业具有鲜明的地域特征,从房地产企业角度来讲,城市的选择在一定程度上决定了投资的成败。因此,对一个城市的市场研判就显得至关重要。对于购房者也一样,准确研判意味着价值提升。早在几年前,同样的资金配置到南京和长沙两个城市,获得的投资回报差别是巨大的。那么,

2020-08-21 18:06:47 1190 1

原创 Python爬取20778套深圳二手房并数据分析

白岩松曾说:“高房价正在毁掉无数年轻人的爱情,毁灭了年轻人的想象力。”尤其是北上广深这类一线城市,对于一般的工薪阶层,买房更是难上加难。前不久,DT财经写了一篇文章《我只有300万预算,能在上海买到什么样的房子?》,引起了网友广泛热议。有人不禁要问,那在深圳买房又得要多少预算呢?于是,为了更加深入了解深圳房产交易市场,我用Pyhton采集了深圳在售20778套二手房数据并分析,试图从数据层面了解深圳二手房市场现状。首先,我们用可视化图表看下分析的结果:数据探索与可视化深圳二手房年走势首先,我们

2020-08-09 23:44:03 2118 2

原创 Python爬取10529条《三十而已》热评,看看大家都说了些啥!

继《隐秘的角落》后,又一部“爆款剧”——《三十而已》获得了口碑收视双丰收,王漫妮、顾佳、钟晓芹三个女主角的故事线频频登上微博热搜。《三十而已》于2020年7月17日在东方卫视首播,并在腾讯视频同步播出。为了了解吃瓜群众们对这部剧的看法,我爬了爬腾讯视频关于这部剧的评论,并做了简单文本可视化分析。一、数据获取1.分析评论页面腾讯视频评论要点击查看更多评论才能加载更多数据,很明显是一个动态网页,评论内容使用了Ajax动态加载技术。因此,我们需要找到真实URL,然后再请求数据。找到真实URL其实不.

2020-07-29 13:05:56 658 1

原创 用Python爬取淘宝4403条大裤衩数据进行分析,终于找到可以入手的那一条

炎炎夏日,长裤已难以满足广大男生的需求,为了在搬砖和摆摊的过程中增添一丝舒适感,他们开始寻找一种神奇的存在——大裤衩。J哥在种菜的这些日子里也日益感受到大裤衩的重要性,于是,默默打开了淘宝并搜索了大裤衩,但翻了半天也不知道买啥。无比懊恼的J哥扔掉了手机,打开电脑并爬取了淘宝4403条大裤衩数据,然后进行了可视化分析,并最终找到一条可以入手的大裤衩。本文主要尝试解决以下几个问题:国内哪些地方的大裤衩卖的比较好?大裤衩市场价格是怎样的?哪些店铺大裤衩销量较高?在售的大裤衩具有哪些特点?一、.

2020-07-24 10:35:46 738 1

原创 我用Python的可视化工具Seaborn制作17个超好看常用图表

一、Seaborn简介1.定义Seaborn是一个基于matplotlib且数据结构与pandas统一的统计图制作库。Seaborn框架旨在以数据可视化为中心来挖掘与理解数据。2.优点代码较少图形美观功能齐全主流模块安装二、安装1.pip命令安装pip install matplotlibpip install seaborn2.从github安装pip install git+https://github.com/mwaskom/seaborn.git三、流程.

2020-07-20 10:35:05 3113 2

原创 Pandas爬虫,竟能如此简单!

众所周知,一般的爬虫套路无非是构造请求、解析网页、提取要素、存储数据等步骤。构造请求主要用到requests库,提取要素用的比较多的有xpath、bs4、css和re。一个完整的爬虫,代码量少则几十行,多则几百行,对于新手来说学习成本还是比较高的。那么,有没有什么方法只用几行代码就能爬下所需数据呢?答案是pandas。J哥自从知道了这个神器,尝试了多个网页数据爬取,屡战屡胜,简直不能再舒服!这家伙也太适合初学爬虫的小伙伴玩耍了吧!本文目录如下:定义pandas中的pd.read_html()这个.

2020-07-15 14:24:02 2800 8

原创 我用Python爬取美食网站3032个菜谱并分析,真香!

这是巨变的中国,人和食物,比任何时候走的更快。近日,J哥为了寻味中国,奔走于某五线城市的大街小巷,结果除了累,啥也没寻到。于是,J哥默默打开了各大美食网站,如豆果美食、下厨房、美食天下等。经过甄选,最终爬取了豆果网最新发布的中国菜系共3032个菜谱,然后清洗数据并做可视化分析,试图走上美食博主的康庄大道。数据获取豆果美食网的数据爬取比较简单,如果您对爬虫感兴趣,可查看J哥往期原创文章「实战|手把手教你用Python爬虫(附详细源码)」,思路一致。本文爬取的数据范围为川菜、粤菜、湘菜等八个中国菜系.

2020-07-15 12:32:58 3603 3

原创 Python爬取链家网24685个租房信息并进行数据分析

Python爬取链家网24685个租房信息并进行数据分析2020年注定是一个不平凡的年份,很多行业受疫情影响艰难前行,即便复产复工提速,被抑制的需求也难以短期释放。与此同时,地摊经济孕育而生,如果人们真的都去摆地摊了,是不是也会出现睡地摊的普遍现象?这时候可能需要思考一下睡地摊的收益和风险了,在没有自有住房的前提假设下,我们是该睡地摊还是租房呢?针对这些问题,本文以深圳市为例,爬取了链家网最新发布的24685个房源租赁信息,包括房源地区分布、楼盘名称、租金、押金、租赁方式、品牌、户型、租期、朝向、水电燃

2020-06-15 10:49:24 4916

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除