![](https://img-blog.csdnimg.cn/20210813193600146.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python数据分析
文章平均质量分 69
运用Python的Pandas,Numpy,Matplotlib进行数据分析。 ------作者:sun
Dream丶Killer
学如逆水行舟,不进则退;心似平原走马,易放难收。
展开
-
2021中国胡润百富榜揭晓:中国首富竟是他......
2021中国胡润百富榜前几天看到一个有意思的榜单“中国胡润百富榜单”,今年是胡润研究院自1999年以来连续第23次发布“胡润百富榜”,上榜门槛连续第九年保持20亿元。今天带大家分析看看中国都有哪些大牛!数据采集数据来源:https://www.hurun.net/zh-CN/Rank/HsRankDetails?pagetype=rich打开页面如下我们需要采集前 2000 名榜单人员的基本信息,分析过程十分简单:F12 打开开发者工具。CTRL + R 刷新页面,就可以看到抓到的数据包。h原创 2021-12-09 14:00:55 · 2395 阅读 · 2 评论 -
搞懂Pandas数据合并,这一片就够了
数据合并是数据处理过程中的必经环节,pandas作为数据分析的利器,提供了四种常用的数据合并方式,让我们看看如何使用这些方法吧!1.concat()concat() 可用于两个及多个 DataFrame 间行/列方向进行内联或外联拼接操作,默认对行(沿 y 轴)取并集。使用方式pd.concat( objs: Union[Iterable[~FrameOrSeries], Mapping[Union[Hashable, NoneType], ~FrameOrSeries]], axi原创 2021-11-23 23:00:26 · 2291 阅读 · 1 评论 -
Python数据分析:缺失值检测与处理
在实际的数据处理中,缺失值是普遍存在的,如何使用 Python 检测和处理缺失值,就是本文要讲的主要内容。检测缺失值我们先创建一个带有缺失值的数据框(DataFrame)。import pandas as pddf = pd.DataFrame( {'A': [None, 2, None, 4], 'B': [10, None, None, 40], 'C': [100, 200, None, 400], 'D': [None, 2000, 3000, No原创 2021-11-12 22:34:31 · 18766 阅读 · 1 评论 -
50个pandas高频操作汇总
重点,敲黑板了首先,本文遵循,传统教学,点到为止!只介绍个人使用比较频繁的一些函数或处理方式。本文的示例只是演示所用,示例一般是不修改原数据的,如果代码会修改原数据会标明(在原数据上进行修改),自己使用时一定要注意是否修改了原数据。一旦报错,首先检查自己的代码是否改变了原数据。# 未修改原数据df.drop('name', axis = 1) # 修改原数据df.drop('name', axis = 1, inplace=True) # 修改原数据df = df.drop('na.原创 2021-09-19 16:46:11 · 7194 阅读 · 38 评论 -
【计算机设计大赛近年获奖信息】数据分析及可视化
【计算机设计大赛近年获奖信息】数据分析及可视化写在前面数据读取及描述数据预处理各年数据集格式化数据合并数据清洗数据分析及可视化各年奖项数量分布各年得奖最多的学校Top10各学校参加次数统计各年参赛学校层次划分参赛人数与奖项分布获奖作品名称热词总结写在前面本文通过最近三年 “中国大学生计算机设计大赛” 的获奖数据(2021结果尚未揭晓),分析挖掘一下该比赛深层的一些内容,主要有以下几点:各年各奖项的比例分布各年得奖最多的学校 Top10哪些学校多次进入得奖最多 Top10各学校三年中参赛次原创 2021-08-31 13:08:21 · 9799 阅读 · 106 评论 -
【2020东京奥运会】 数据分析及可视化
⭐️【2020东京奥运会】 数据分析及可视化 ⭐️写在前面数据获取数据预处理数据可视化各地区奖牌数量分布奖牌榜前十中国夺金项目分类中国奖牌实时数量合成看板总结写在前面8月8日,小日…子过得挺好的日本选手的国家 举办的东京奥运会已经结束了。在奥运期间,主办方种种 奇葩操作 直接把我看傻,最终它们也通过独特的“手段” 挤入了前三名,在这里首先谢谢他们刷新了我对奥运的认知。同时,借此机会看看我国今年奥运会的获奖情况,话不多说进入正文。数据获取奥运会相关数据来自以下两个接口。https://app-原创 2021-08-13 17:53:35 · 11603 阅读 · 160 评论 -
数据分析——常见数据指标汇总
数据分析——常见数据指标汇总数据分类用户数据指标行为数据指标产品数据指标推广付费指标数据分类用户数据:反映用户的基本信息等。行为数据:做过什么,如页面停留时间,购买等。产品数据:产品信息、库存等。用户数据指标1️⃣ 日新增用户数:产品每天新增用户。2️⃣ 活跃率:衡量用户活跃度的一个指标,活跃用户可分为日活跃用户,周活跃用户,月活跃用户。日活跃用户:一天之内活跃的用户数周活跃用户:一周之内至少活跃一次的用户数月活跃用户:一月之内至少活跃一次的用户数活跃率=[活跃用户数][总用户数原创 2021-08-05 18:14:17 · 1462 阅读 · 2 评论 -
别再说难了,年轻小伙教你分析及可视化二手房信息(附源码,这不收藏?)
别再说难了,年轻小伙教你分析及可视化二手房信息(附源码)数据读取写在前面我又来了,承接上文 别再说难了,年轻小伙教你如何爬取“新一线城市”二手房信息 ,本篇文章主要对上一篇爬取的数据进行分析及可视化。来挖掘一下数据背后的秘密…文中主要涉及的Python库:pandas:读取 csv 文件中的内容,并对数据进行处理。matplotlib:它是基于 numpy 的一套 Python 工具包。这个包提供了丰富的数据绘图工具,主要用于绘制一些统计图形。seaborn: seaborn 是基于 matp原创 2021-06-04 20:07:59 · 2168 阅读 · 84 评论 -
震惊!一菜鸟竟用pyecharts分析B站弹幕作出这么靓的图~
文章目录数据预处理写在前面年前写了篇B站弹幕爬取的文章,说之后有时间分析一下弹幕中的热点,正好最近没什么好写的,就来填坑吧。。本文主要对B站《咒术回战》动漫第一集弹幕的数据进行分析及可视化,主要使用 python 的 pandas 对数据进行预处理, pyecharts 可视化。数据集为简单整理后的,数据量 60000 条。ok,话不多说,直接开整。数据预处理首先,查看数据集的一些信息,为了之后能够对数据集有个清晰地认识。import pandas as pddf = pd.read_c原创 2021-05-25 19:52:25 · 2189 阅读 · 16 评论 -
np.dstack()、np.hstack()、np.vstack()用法
np.dstack()按深度顺序堆叠arrays。当数组为2维数组(M,N)或1维数组(N,)时,首先分别将其维度改变为(M,N,1)、(1,N,1),然后沿着第三根轴(r/g/b通道)进行拼接。# 一维a = np.array([1, 2])b = np.array([3, 4])print(np.dstack((a,b)))# 二维a = np.array([[1, 1], [2, 2], [3, 3]])b = np.array原创 2021-04-13 17:33:45 · 3440 阅读 · 1 评论 -
pyvenn绘制2-6组韦恩图
使用matplotlib_venn能绘制2~3组数据的韦恩图pyvenn能绘制2~6组数据本文主要介绍pyvenn这个轮子的使用方式。准备工作github地址使用git直接clonegit clone https://github.com/tctianchi/pyvenn.git直接下载zip包如果你已经完成上面操作,直接使用import venn可能会出现错误。当我们导入一个模块时,默认情况下python解释器会搜索当前目录、已安装的内置模块和第三方模块,搜索路径存放在s.原创 2021-04-07 15:45:38 · 2380 阅读 · 6 评论 -
数据预处理——标准化
通过本文的学习你将了解到为什么要进行标准化,以及标准化的常用方法。为什么需要标准化数据集标准化是许多在scikit-learn中实现的机器学习估计器的共同要求;如果个体特征不是或多或少地像标准正态分布(零均值,单位标准差的正态分布),算法的表现可能会大打折扣。实际上,我们经常忽略数据的分布形状,而仅仅做零均值、单位标准差的处理。在一个机器学习算法的目标函数里的很多元素所有特征都近似零均值,方差具有相同的阶。如果某个特征的方差的数量级大于其它的特征,那么,这个特征可能在目标函数中占主导地位,这使得模型不能原创 2021-04-07 13:50:55 · 1095 阅读 · 1 评论 -
pandas处理重复值
示例数据:import pandas as pddf = pd.DataFrame({'a':['Python', 'Python', 'Java', 'Java', 'C'], 'b': [2, 2, 6, 8, 10]})df仅判断单列是否有重复值使用values_counts()对列中值出现次数进行统计。结果默认按照降序进行排列,只需要判断第一行值的出现次数是否为1即可判断是否存在重复值。df['a'].value_counts()使用drop_duplicates()对原创 2021-03-27 12:23:44 · 1349 阅读 · 0 评论 -
依存句法树可视化(nltk、spacy)
本文介绍两种英文句法树可视化的方法。其中用到的spacy、nltk库等需要提前安装。如果安装有问题或需要一些包的话,可以在文章下留言,看到了就会回复的。1.nltk + stanfordcorenlp对句法树进行可视化from nltk.tree import Treefrom stanfordcorenlp import StanfordCoreNLPsentence = 'it is fast booting up , shutting down, and connection with原创 2021-03-07 12:02:22 · 15805 阅读 · 9 评论 -
使用Pandas进行数据清洗
数据清洗的目的是修正异常值,以更好地进行运算和观察结果。通过Pandas对序列或数据帧的清洗分为两个步骤:异常检测和数据修正。1.异常检测Pandas中的空值用‘NaN’表示,可以通过调用isnull和notnull来检测序列对象和数据帧对象是否为异常值。import pandas as pddic = {'name': ['Tom', 'Tony', 'Jack'], 'age': [16, 17, 18], 'class': [1, None, None]}df = pd.DataFrame原创 2021-03-06 20:04:15 · 3387 阅读 · 2 评论 -
Numpy中创建数组的n种方式,你都了解吗?
1、使用empty方法创建数组该方式可以创建一个空数组,dtype可以指定随机数的类型,否则随机采用一种类型生成随机数。import numpy as npdt = np.numpy([2, 2], dtype=int)2、使用array创建数组使用array方法可以基于Python列表创建数组,在不设置dtype的情况下,从列表中自动推断数据类型。import numpy as npdt = np.array([1, 2, 3, 4, 5])print('数组:', dt)pr原创 2021-03-02 17:01:53 · 11392 阅读 · 0 评论 -
keras库preprocessing.text文本预处理
文本预处理Tokenizer(分词器)keras.preprocessing.text.Tokenizer(num_words=None, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', lower=True, split=' ',原创 2021-02-24 22:29:12 · 1370 阅读 · 1 评论 -
使用gensim框架及Word2Vec词向量模型获取相似词
使用gensim框架及Word2Vec词向量模型获取相似词预备知识Word2Vec模型下载加载词向量模型预备知识gensim框架gensim是基于Python的一个框架,它不但将Python与Word2Vec做了整合,还提供了基于LSA、LDA、HDP的主体框架。Word2VecWord2Vec属于一种神经网络架构的概率语言模型两个重要模型CBOW模型:CBOW模型是Word2Vec最重要的模型,输入是周围词的词向量,输出是当前词的词向量。即通过周围词来预测当前词。Skip-Gram原创 2020-12-16 11:30:42 · 2463 阅读 · 0 评论 -
Python读写Excel文件
读取Excel 02.xlsx文件内容如下import xlwings as xwapp = xw.App(visible=True, add_book=False)app.display_alerts = Falseapp.screen_updating = Falsewb = app.books.open(r'C:\Users\pc\Desktop\数据分析\Excel 练习课件\Excel 02.xlsx')data = app.books[0].sheets[0].range('A原创 2021-02-20 20:33:37 · 1206 阅读 · 2 评论 -
Series序列创建的几种方式
1.通过给定数值创建序列import pandas as pds = pd.Series(5, index=range(5))2.通过NumPy数组创建序列import pandas as pdimport numpy as nparr = np.array(['A', 'B', 'C', 'D'])s = pd.Series(arr)3.通过列表创建序列import pandas as pds = pd.Series(['A', 'B', 'C', 'D'], index=原创 2021-02-20 15:06:27 · 2292 阅读 · 0 评论 -
将Series序列作为一列插入到DataFrame中
import pandas as pddf = pd.DataFrame({'name': ['A', 'B', 'C', 'D'], 'age': [11, 12, 13, 14]})s = pd.Series(1, index=range(5))df.insert(0, 'class', s)注意:当Series索引与DataFrame索引不同时,对应位置填充NaN当Series索引长度大于DataFrame索引长度时,多余的部分舍去;小于时,不足的部分填充NaN。...原创 2021-02-20 14:01:51 · 10927 阅读 · 0 评论 -
分析万篇途牛旅游游记为你挑选最佳旅游景点
部分游记详情页旅游地点为空原创 2021-02-11 20:41:54 · 12874 阅读 · 4 评论 -
Seaborn可视化绘制线图
Seaborn可视化绘制线图对于时间序列或是其他类型的连续变量,使用线图更容易的观察数据的整体趋势。调用Seaborn库中的relplot方法,设置参数kind='line',即可绘制线图。import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport numpy as npsns.set(style='darkgrid')df = pd.DataFrame(dict(time=np.arange(原创 2021-01-22 19:28:46 · 2826 阅读 · 0 评论 -
Seaborn可视化绘制散点图
一文带你了解Seaborn可视化Seaborn是一个基于Matplotlib的Python数据可视化库,它提供更高级的接口,用于绘制表现力更强和信息更丰富的统计图形,并与Pandas紧密集成。相较于Matplotlib,Seaborn在统计方面的专业性更强。...原创 2021-01-21 22:05:56 · 10773 阅读 · 3 评论 -
(数据分析)网课评论分析
本文通过爬取的数据,对<font color='bluee'>中国大学MOOC(icourse)、慕课网(imooc)、腾讯课堂(keqq)、网易云课堂(study163)</font>四个网课平台的课程信息及评论进行简要分析。同时,对数据分析的整体流程做一个总结。内容如有纰漏,敬请指出。原创 2020-12-27 15:15:31 · 15889 阅读 · 60 评论 -
(pandas)sort_index()与sort_values()的使用
在Series与DataFrame中数据的排序sort_index()方法在指定轴上根据索引进行排序sort_index(axis=0, ascending=True, inplace=True)axis:1轴,0轴(默认)。ascending:默认True升序,False降序。inplace:默认为False,删除重复项后返回副本。True,直接在原数据上删除重复项。# 初始的Series,DataFrameseries = pd.Series(np.arange(4), index=[原创 2020-12-22 22:16:05 · 1704 阅读 · 0 评论 -
(pandas)评论数据清洗
(pandas)评论数据清洗1.空值处理2.数据去重3.定向剔除无用评论1.空值处理# 直接删除评论列中的空值(不包含空字符串)df = df.dropna(subset=['comment'])2.数据去重去重时最好把多列作为参照,不能只根据评论列,防止删除不同人写出的相同评论。# 根据用户id与comment两列作为参照,如存在用户id与comment同时相同,那么只保留最开始出现的。df.drop_duplicates(subset=['user_id', 'comment'],原创 2020-12-08 21:37:07 · 4523 阅读 · 4 评论 -
pd.merge()与pd.concat()的使用
(csv合并)pandas中merge()与concat()的使用merge()的使用:使用场景:两个DataFrame中某列或多列列名相同dic1 = {'name':['李四', '王五', '赵六'], 'age':[12, 13, 14]}dic2 = {'name':['张三', '李四', '王五'], 'class':['A1', 'A2', 'A3']}df1 = pd.DataFrame(dic1)df2 = pd.DataFrame(dic2)''' name原创 2020-12-07 17:12:06 · 1739 阅读 · 0 评论 -
pandas根据某列去重
pandas(文本去重)根据某列删除重复行方法一:unique()函数,该函数用于获取Series对象的唯一值。这种方式对于数据只有一列的较为方便,否则,就要添加该列到原dataframe中。import pandas as pddic = {'name':['a', 'b', 'c', 'd'], 'comment':['abc', '真棒', '真棒', '123']}df = pd.DataFrame(dic)dfOut[6]: name comment0 a原创 2020-11-21 11:14:27 · 35529 阅读 · 1 评论