数据分析
文章平均质量分 67
记录学习数据分析的知识点
ystraw_ah
人生最有价值的时刻,不是最后的功成名就,而是对未来正充满期待与不安。
展开
-
51-python3 pandas读写excel
转载自:https://blog.csdn.net/brink_compiling/article/details/76890198?locationNum=7&fps=10. 前言Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操...原创 2019-04-11 20:20:00 · 153 阅读 · 0 评论 -
pandas 个人常用
读与构建import pandas as pdimport osdata = pd.read_excel(read_path, engine="openpyxl") # 通过文件加载new_excal = pd.DataFrame() # 空的读取a = data.iat[row, col] # 第row行,第col列 data.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称,而是数据所在的位置,从0开始,前三行,前两列。print(data.loc[3]) # 提取下标为3原创 2021-12-02 21:26:52 · 180 阅读 · 2 评论 -
pandas 百题大冲关
Pandas 百题大冲关Pandas 百题大冲关分为基础篇和进阶篇,每部分各有 50 道练习题。基础部分的练习题在于熟悉 Pandas 常用方法的使用,而进阶部分则侧重于 Pandas 方法的组合应用。基础部分基础1. 导入Pandas:import pandas as pd2. 查看Pandas版本信息:print(pd.__version__)Pandas 的数据结构:Pandas 主要有Series(一维数组),DataFrame(二维数组),Panel(三维数组),Panel4D原创 2020-07-01 12:50:47 · 2766 阅读 · 1 评论 -
【数据分析】基于新闻文本数据分析
附录:t1.py:#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/2/12 13:02# @Author : ystraw# @Site : # @File : t1.py# @Software: PyCharm...原创 2020-06-26 20:00:21 · 3706 阅读 · 4 评论 -
matplotlib bar柱形图x轴不按顺序排列以及旋转x轴文本显示角度
设置旋转90度:plt.xticks(rotation=90,fontsize=13)调整顺序:plt.xticks(range(len(x)), x)plt.bar(range(len(x)), y, color = 'g')实例代码:# 设置数据x = np.array(top10['景点名称'])y = np.array(top10['综合得分'...原创 2020-04-10 17:05:44 · 4663 阅读 · 0 评论 -
Matplotlib数据可视化从入门到精通
转载自:Matplotlib数据可视化从入门到精通目录前言一、如何添加标题-title二、如何添加文字-text三、如何添加注释-annotate四、如何设置坐标轴名称-xlabel/ylabel五、如何添加图例-legend六、如何调整颜色-color七、如何切换线条样式-marker八、如何显示数学公式-mathtext九、如何显示网格-grid...转载 2020-04-09 09:47:24 · 648 阅读 · 0 评论 -
snownlp 中文文本情感分析、相似度计算、分词等
snownlp 官网:https://pypi.org/project/snownlp/SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了[TextBlob](https://github.com/sloria/TextBlob)的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有...原创 2020-02-27 12:33:25 · 3896 阅读 · 1 评论 -
LDA主题模型-sklearn的LatentDirichletAllocation实现案例
原理介绍请参考:LDA主题模型及python实现 用scikit-learn学习LDA主题模型实现LDA模型的库有:sklearn的LatentDirichletAllocation 和 Gensim 库等。下面主要一个例子,结合sklearn进行实现。主要步骤:1、构建词袋:对每篇文章进行分词处理(本例中使用的jieba库)...原创 2020-02-26 13:59:20 · 8518 阅读 · 7 评论 -
用TF-IDF算法提取中文文档关键词、词云展示文章内容
先使用jieba进行文档内容的分词处理,再利用TfidfVectorizer进行 tf-idf的计算,最后在根据其值进行排序,最后输出排行前十的关键词。相关原理介绍请参考:文本关键词提取(TF与TF-IDF)-CountVectorizer()和TfidfVectorizer()#coding:utf-8from sklearn.feature_extraction.te...原创 2020-02-24 11:29:50 · 3312 阅读 · 7 评论 -
文本关键词提取(TF与TF-IDF)-CountVectorizer()和TfidfVectorizer()
转载自:sklearn基础(一)文本特征提取函数CountVectorizer()和TfidfVectorizer() sklearn: TfidfVectorizer 中文处理及一些使用参数 对于文本关键提取通常有两种简单的方法:一个则是直接计算出现频率较高的词,另一个则是计算出现频次*逆文档率,下面分别介绍具体的实现。sklearn-Coun...转载 2020-02-23 22:36:41 · 1186 阅读 · 0 评论 -
Gephi (网络分析软件) 下载、安装及简单使用
Gephi(网络分析软件)是一款完全免费的跨平台的网络分析工具,安装之后,需要安装Java JDK API,否则就会出现gephi打不开的情况,其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。该软件可用作,探索性数据分析,链接分析,社交网络分析,生物网络分析等,功能非常强大,支持Windows, Mac OS X以及Linux多个平台。一、下载方式一:官网下载(下载很...原创 2020-02-19 23:02:19 · 12368 阅读 · 8 评论 -
【数据可视化】folium 绘制城市提及次数热力图
效果图:代码:import foliumfrom folium.plugins import HeatMap# data=[[ 39.90403 , 116.407526 , 1500 ]]# 数据:经纬度和权重data = [[31.235929, 121.480539, 1208], [39.910925, 116.413384, 1557], [22.548457, 1...原创 2020-02-18 20:58:06 · 6299 阅读 · 6 评论 -
详解python 利用 pyecharts 画地图(热力图)(世界地图,省市地图,区县地图)、动态流向图
转载:详解python 利用echarts画地图(热力图)(世界地图,省市地图,区县地图)目录安装对应的python模块世界地图中国地图省市地图区县地图热力图安装对应的python模块pip install pyecharts==0.5.10pip install echarts-countries-pypkgpip install echarts-c...转载 2020-02-18 12:38:04 · 81364 阅读 · 47 评论 -
pandas 基础用法大全(入门首选)
本文转载于:pandas用法大全,并在原文的基础上修复了部分问题并配了相应代码执行输出的结果。一、生成数据表1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd2、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv('name.csv',he...转载 2020-02-14 17:24:52 · 7477 阅读 · 0 评论 -
数据分析文章记录
最近开始看看数据分析的知识,由于对次领域还是零基础,于是从老师推荐的几文章开始入门吧,在此做个记录,以便多次复习。1.数据运营|数据分析中,文本分析远比数值型分析重要!(上)2.在运营中,为什么文本分析远比数值型分析重要?一个实际案例,五点分析(下)3.以虎嗅网4W+文章的文本挖掘为例,展现数据分析的一整套流程...原创 2020-02-11 21:14:03 · 200 阅读 · 0 评论