你都用 Python 来做什么?爬数据数据分析,例如招聘数据、粉丝数据等等

主要是爬取数据,并把爬回来的数据进行分析和挖掘,做过的小项目主要有:

1.扒了扒蔡徐坤100万+微博转发中,假流量占了多少的比例

随机抓取蔡徐坤100万+转发的微博《再见,“任性的”千千…》的10万条转发数据,并且分析蔡徐坤真假转发流量的比例以及真假粉丝的用户画像。
在这里插入图片描述
发现102313条转发数据中,有95397条是由假粉丝转发的,占了总转发的93.24%,只有6916条是由真粉丝转发的,占6.76%。6916条数据中,除去重复转发的粉丝,真实粉丝数量只剩下3926个。也就是说,真实转发的粉丝数量,占总转发量的3.84%。
在这里插入图片描述
与之相比,吴青峰10006条转发数据中,只有很少比例的假粉丝量,绝大部分都是真粉丝转发的。在9658条真粉丝转发数据中,真粉丝量也高达9318,说明不存在粉丝打榜的情况。
在这里插入图片描述
另外还有一些有趣的发现:假粉丝的平均关注是3.44,平均粉丝数是1.04,没有简介,昵称基本上都是“中文+英文和数字”这个格式,很多假粉丝的昵称都带有“坤”、“蔡”、“葵”、“kun”等字,头像都是蔡徐坤(说明很多都是定制粉啊)。

2.爬取了西瓜直播(今日头条旗下APP)各类型游戏的主播直播数据107.5万条,并分析直播平台和游戏主播行业是否真如我们想象般的暴利

使用多线程爬虫爬取了西瓜直播(今日头条旗下APP)各类型游戏的主播直播数据107.5万条(时间:2019年4月30日0时至5月7日0时7天,平均每隔5分钟获取一次各类型游戏所有主播直播数据),并分析直播平台和游戏主播行业是否真如我们想象般的暴利,以及游戏主播的回报跟付出的努力是否成正比

在这里插入图片描述
全平台7天内出现的主播有4601人,其中有3266位主播具有打赏收入,有1335位主播是没有打赏收入的。在3266位有打赏收入的主播中,历史总打赏小于100元的有1143人,占总数的35%。历史总打赏小于1万元的有2491人,占总数的76%。历史总打赏大于10万元的有177人,占总数的5%。
在这里插入图片描述
那么努力和收获是成正比的吗?图表中的趋势告诉我们:是的。总收入一百元以内的直播,平均每日直播2.2小时,而总收入一百万到一千万的主播,平均每日直播5.7小时!

可能大家觉得这个时间不长,但是要知道玩游戏是一项需要全神贯注的游戏,主播要是走神了没玩好,人气就不在了,礼物也刷不上来。试想一下每日要全神贯注玩6个半小时的游戏,还要解说和互动,就知道辛苦程度如何了。
在这里插入图片描述
可以看到,节假日的观看人数要比非节假日高。每日观看人数从7点开始攀升,到12点达到小峰值(500万左右),再从下午的4点开始急剧攀升,下午6点的观众人数,是12点的3-4倍。说明观众习惯下午下班后打开APP观看直播。下午6点一直到晚上12点,都是直播的黄金时间。

在这里还是要推荐下我自己建的Python开发学习群:810735403,群里都是学Python开发的,如果你正在学习Python ,欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2020最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴!

3.爬取丁香人才网的医生招聘数据,分析儿科医生的生存处境

看了《人间世》第二季第8集《儿科医生:坚守,还是逃离?》之后,爬取了丁香人才网10950条涵盖儿科、内科、外科、妇产科、眼科的招聘数据,并且分析儿科医生的真实处境。

在这里插入图片描述
在这里插入图片描述
相比于公立医院招聘中更看重高学历人才,民营医院招聘时更加看重医生的工作经验。所以公立医院中由于学历导致发展受限的有经验的医生,很多都跳槽去民营医院了。
在这里插入图片描述
儿科岗位平均招聘持续时间是73天,将近2个半月的时间,位居榜首!看来儿科招人难,确实是千真万确的,而外科是最好招人的。
在这里插入图片描述
儿科医生在所有类型的单位里,公立医院开出的工资是最低的。连诊所和药房的工资都比公立医院高。
在这里插入图片描述
相同工资水平下,民营医院对学历不限和大专的要求比公立医院多,而公立医院对本科、硕士、博士的要求比民营医院多。也就是说,在民营医院,不需要那么高的学历,就可以拿到跟公立医院同价位的待遇。

在这里还是要推荐下我自己建的Python开发学习群:810735403,群里都是学Python开发的,如果你正在学习Python ,欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2020最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴!

4.爬取北上广深链家网全部租房数据,并给出租房建议

爬取北上广深链家网全部租房房源数据,并且得出租金分布、租房考虑因素等建议。

把北上广深四个城市的房源都以小点的形式投射在地图上,先来看看北京的:
在这里插入图片描述
上海的:
在这里插入图片描述
广州的:
在这里插入图片描述
深圳的:
在这里插入图片描述
租房房源分布透露出来的信息其实不多,我们更关心的是各区域的价格。为此我计算了各房源每平米每月的租金,并绘制了热力地图,先来看北京的。
在这里插入图片描述
上海市:
在这里插入图片描述
广州市:
在这里插入图片描述
深圳市:
在这里插入图片描述
在这里还是要推荐下我自己建的Python开发学习群:810735403,群里都是学Python开发的,如果你正在学习Python ,欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2020最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴!

5.模拟登录微博手机端爬取海量表情包(其实代码同样也可以爬小姐姐的图片)

爬了一千多张点赞量最高、目前最火的表情包,让自己的表情包库再也不捉襟见肘。
在这里插入图片描述
另外还用这个爬虫爬了很多女装大佬的美图,哈哈哈。
在这里插入图片描述
以及很多小姐姐的美图。
在这里插入图片描述
在这里还是要推荐下我自己建的Python开发学习群:810735403,群里都是学Python开发的,如果你正在学习Python ,欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2020最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要用Python进行数据分析,需要使用一些第三方库和工具。下面是使用Python进行数据分析的一些基本步骤: 1. 准备数据:首先需要准备一份TXT文本文件。确保文件路径正确,并且文本内容格式正确。 2. 导入必要的库:Python中有许多库可以用于数据分析,如NumPy、Pandas、Matplotlib等。在开始数据分析之前,需要导入这些库。 ```python import numpy as np import pandas as pd import matplotlib.pyplot as plt ``` 3. 读取文本文件:使用Pandas库中的`read_csv()`函数可以读取文本文件并将其转换为DataFrame格式。 ```python df = pd.read_csv('filename.txt', delimiter='\t', header=None) ``` 其中,`delimiter`参数指定了分隔符,这里是Tab键;`header`参数指定是否包含列名,这里是没有列名的。 4. 数据清洗和预处理:在对数据进行分析之前,需要对数据进行清洗和预处理。这可能包括删除无用的列、处理缺失值、标准化数据等。 ```python # 删除第一列和第三列 df.drop([0, 2], axis=1, inplace=True) # 处理缺失值 df.fillna(0, inplace=True) # 标准化数据 df = (df - df.mean()) / df.std() ``` 5. 数据分析和可视化:完成数据清洗和预处理后,可以进行数据分析和可视化。这可以使用NumPy、Pandas和Matplotlib等库进行。 ```python # 计算均值、中位数、标准差等统计量 print(df.mean()) print(df.median()) print(df.std()) # 绘制直方图 df.plot.hist(bins=20) # 绘制散点图 df.plot.scatter(x=0, y=1) ``` 这些步骤只是数据分析的基础,具体的分析方法和可视化方式取决于具体问题和数据类型。 ### 回答2: 要用Python进行数据分析,可以按照以下步骤处理一份TXT文本数据: 1. 导入所需的库:首先,需要导入Python中的相关库,如numpy、pandas和matplotlib等。这些库提供了进行数据处理和分析的常用函数和工具。 2. 读取数据:使用pandas库中的read_csv函数来读取TXT文本文件,并加载到一个数据框中。可以通过指定分隔符、列名等参数来确保数据的正确加载。 3. 数据预处理:对于数据分析,通常需要进行一些数据清洗和预处理工作。可以使用pandas库提供的函数进行数据过滤、去除缺失值、处理异常数据等操作。 4. 数据分析:根据具体问题,选择合适的统计分析方法。可以使用numpy库进行数值计算和统计分析,如计算均值、中位数、方差等。还可以使用pandas库进行数据聚合、透视表等高级数据处理操作。 5. 数据可视化:使用matplotlib库中的函数,通过制作图表和图形,将数据可视化。这样可以更直观地呈现数据分析结果,如绘制折线图、柱状图、散点图等。 6. 结果报告:最后,根据分析结果来撰写一份数据分析报告。可以使用Python的文本处理库,如docx库来生成报告文档,并通过将结果导出为CSV或Excel文件来保存。 通过以上步骤,就可以使用Python进行数据分析了。当然,在实际应用中,可能需要根据具体问题和数据特点一些额外的处理和分析工作,但以上基本步骤可以作为一个指导来帮助完成数据分析任务。 ### 回答3: 使用Python进行数据分析可以利用Python的强大的数据处理和分析库,如pandas、numpy、matplotlib等。 首先,需要将TXT文本数据读入Python中。可以使用pandas库中的read_csv函数来读取TXT文件,并将其转换为DataFrame格式进行进一步分析。 接下来,可以使用pandas和numpy库对数据进行清洗和预处理。通过去除无效数据、填充缺失值、数据类型转换等操作,使得数据符合分析所需的格式。 在数据预处理完成后,可以利用pandas和numpy库对数据进行统计分析。例如,可以使用pandas的describe函数来计算数据的基本统计量,如平均值、中位数、最大值、最小值等。此外,还可以使用pandas和numpy提供的函数进行数据聚合、分组、筛选等操作。 此外,使用matplotlib库可以进行数据可视化分析。可以使用matplotlib的各种绘图函数,如折线图、柱状图、饼图等,来展示数据的分布情况、趋势、比较等。 最后,可以根据数据分析的需求,结合以上操作,对TXT文本数据进行更深入的分析。可以使用Python提供的统计学和机器学习库,如scipy、scikit-learn等,进行更高级的数据分析,如回归、分类、聚类等。 总之,使用Python进行数据分析,可以通过pandas库对数据进行读取、清洗和预处理,利用numpy库进行数据统计分析,使用matplotlib库进行数据可视化分析,并结合其他统计学和机器学习库进行更深入的数据分析

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值