数据分析&文本挖掘
大义Python
用学者的思维观察世界!实用的知识是最优雅的,最有力量的,也是最值得敬畏的!
展开
-
pyecharts 详细教程与案例 秒入门
这里写目录标题概况特性(完虐matplotlib.pyplot)快速开始查询版本绘制第一个图表bar对象的可用方法:概况Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了。如何查看使用的 pyecharts 版本?特性(完虐matplotlib.pyplot)1简洁的 API 设计,使用如丝滑般流畅,支持链式调用2囊括了 30原创 2020-06-11 12:04:25 · 4126 阅读 · 1 评论 -
秒懂TF IDF 代码实现
TF-IDF算法步骤:1) 计算词频:词频 = 某个词在文章中出现的次数考虑到文章有长短之分,考虑到不同文章之间的比较,将词频进行标准化词频 = 某个词在文章中出现的次数/文章的总词数或者 词频 = 某个词在文章中出现的次数/该文出现次数最多的词出现的次数2) 计算逆文档频率需要一个语料库(corpus)来模拟语言的使用环境。逆文档频率 = log(语料库的文档总数/(包含该词的文档数 + 1))3) 计算TF-IDFTF-IDF = 词频(TF)* 逆文档频率(IDF)#语料库con原创 2020-06-03 13:05:14 · 271 阅读 · 0 评论 -
Numpy 属性 方法 操作 速查表
Numpy 速查1.Numpy 数据类型2.创建数组方法numpy.array()numpy.asarray()numpy.arange()numpy.linspace()numpy.logspace()numpy.empty()numpy.zeros()numpy.ones()numpy.eye()numpy.frombuffer()numpy.fromiter()3.改变数组的维度或者形状nu...原创 2020-04-10 22:03:32 · 453 阅读 · 0 评论 -
numpy 详解
numpy 详解numpy 的意义:一、矩阵的创建1.列表或元组创建2.np函数创建3.矩阵拼接二、ndarray 的常用属性、方法三、矩阵的操作(改维度、类型,索引,切片 )1.维度2.类型3.索引4.切片四、矩阵的运算1.四则运算和幂2.函数运算3.随机函数使用RandomState获得随机数生成器4.统计函数五、导入导出1.CSV2.tofile针对多维矩阵numpy 的意义:-1.矩阵...原创 2020-04-10 14:54:43 · 1617 阅读 · 0 评论 -
numpy axis = 0 1彻底理解
先一句话总结:axis=n,表示对n+1层[ ]内的最大单位做跨单位运算例如:axis = 0表示对最外层[]里的最大单位块做块与块之间的运算详细说明如下:numpy中axis取值的说明首先对numpy中axis取值进行说明:一维数组时axis=0,二维数组时axis=0,1,维数越高,则axis可取的值越大,数组n维时,axis=0,1,…,n。为了方便下面的理解,我们这样看待:在nu...原创 2020-04-09 20:47:49 · 463 阅读 · 0 评论 -
梯度下降 Gradient Descent 从二元到多元
机器学习首先可以理解机器学习是从一个模型中找到最佳模型,模型是指一系列函数的集合。例如:y=k*x +b,这就是一系列线性函数的集合。梯度下降(Gradient Descent)梯度下降就是寻找最佳模型或者函数的方法之一,概念不多说,直接用实例解释更靠谱!待求解问题:有一组样本,请预测下一个值是多少?(数据y_data是某谣言每日增长量的案例值,单位:万条)x_data=[0,1,2,...原创 2020-03-29 22:32:07 · 543 阅读 · 0 评论 -
秒懂numpy meshgrid
meshgrid意义用于快速生成坐标矩阵(关键在于快速)坐标矩阵下面的就是坐标矩阵:x = [[0, 1, 2][0, 1, 2]]y = [[0, 0, 0][1, 1, 1]]这个图可以中下面普通方法代码画出:import numpy as npimport matplotlib.pyplot as pltx = np.array([[0, 1, 2], [0, 1,...原创 2020-03-28 11:56:50 · 175 阅读 · 0 评论 -
Numpy存在的最大意义
Numpy存在的最大意义思维转变思维转变大家都知道,直接用python基本语法也是可以实现一维二维多维数组的运算的,但是需要加点循环语句,简单的列表组合和字典就可以代替,那为什么需要Numpy?仅仅是为了运算更快?不是的,要让有数据分析相关需求的人的思维和经历放在数组运算上,放到数学上,编程代码实现上!你可以去看一看,简单的一个数组多项式,用基本代码和Numpy 写出来的区别!...原创 2020-03-15 19:46:13 · 453 阅读 · 0 评论 -
pandas 处理日期时间变量
pandas 日期 时间 变量 处理原创 2019-10-23 09:49:26 · 640 阅读 · 0 评论 -
pandas 数据清洗
读入数据import osimport sysimport pandas as pdimport numpy as npdef readpm(filename,startline=2):#读入数据函数 return pd.read_csv(filename,header = startline, usecols = [0,2,3,4...原创 2019-10-21 19:14:48 · 206 阅读 · 0 评论 -
pandas 文件级别的数据管理
数据拆分(整个文件级别的操作)标记数据拆分组import pandas as pddf1 = pd.read_csv('123.csv',encoding = 'utf-8')‘’’df.groupby(by:用于分组的变量名/函数axis = 0level = None :相应的轴存在多层索引时,指定用于分组的级别as_index = True :在结果中将组标签作为索引...原创 2019-10-21 09:43:42 · 156 阅读 · 0 评论 -
pandas 列 操作 变量转换
import pandas as pdimport numpyimport mathvariable conversioncalculate new variablenew variable is constant‘’’ df[‘var_name’] = name’’’df1 = pd.read_csv('123.csv',encoding='utf-8')df1.new_var ...原创 2019-10-19 10:42:51 · 599 阅读 · 0 评论 -
pandas - 行操作
import pandas as pdoperation of line of casesort line by index‘’’#语法df.sort_index(level:specify index by name or Sequence numberascending = True:ascending sequenceinplace = Falsena_position = ...原创 2019-10-19 10:36:11 · 186 阅读 · 0 评论 -
学习pandas-索引操作
import pandas as pddf1 = pd.DataFrame( {'var1':1.0, 'var2':[1,2,3,4], 'var3':['test','tran','test','tran'], 'var4':'cons'}, index = ['a','b','c','d'] ...原创 2019-10-13 17:22:56 · 165 阅读 · 0 评论 -
pandas 变量列的基本操作
import pandas as pddf1 = pd.read_csv('123.csv',encoding = 'utf-8')simply review data 查看数据print(df1)# directly show dataframe 直接查看print(df1.info)#dataframe's basic information 信息描述print(df1.head...原创 2019-10-10 21:49:55 · 949 阅读 · 0 评论 -
pandas 数据导出为csv Excel格式
import pandas as pd#string to show exporting data to csv'''df.to_csv( filepath_or_buffer:path to story to sep = ',':column separator columns:list needed to export ...原创 2019-10-10 10:05:10 · 1407 阅读 · 0 评论 -
学习pandas-读入文本数据
废话少说看代码import pandas as pd'''pd.read_csv( filepath_or_buffer:文件路径#不要包含中文 sep = ',':列分隔符 header = 'infer':指定数据中的第几行作为变量名 names = None:自定义变量名列表 index_col = No...原创 2019-10-08 20:30:50 · 171 阅读 · 0 评论 -
学习pandas-输入数据结构
废话少说直接看代码import pandas as pdimport numpy as nppd.options.display.max_rows = 10print(pd.__version__)#定义格式一(列形式-字典形式)df1 = pd.DataFrame( { 'var2' :1, 'var3' :[1,...原创 2019-10-08 19:35:15 · 134 阅读 · 0 评论 -
anaconda python 版本对应关系 及下载地址
anaconda各版本下载地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/anaconda各版本与python版本对应关系原创 2019-09-25 16:04:34 · 330 阅读 · 0 评论