数据分析
文章平均质量分 76
bearx...
攻城狮
展开
-
数据特征处理之文本型数据(特征值化二)TF-IDF
本篇内容介绍文本类型数据数据特征抽取的第二种方法(TF-IDF),有关文本数据特征抽取的第一种方法已在数据特征处理之文本型数据(特征值化)中介绍,感兴趣的小伙伴可以再点击查看。什么是TF-IDFTF-IDF是一种用于资讯检索与文本挖掘的常用加权技术,可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。它的理论计算公式为:其中TF:英文全称为Term Frequencyhe(检索词频率),通俗地说就是单词在文档出现的频率。IDF:英文全称为Inver...原创 2021-01-01 15:15:06 · 610 阅读 · 0 评论 -
数据特征处理之文本型数据特征值化(一)
数据的存在形式是多样的,除了我们平时常见的数值型数据之外,还有文本类型的数据,本篇讨论的是文本类型数据的处理方法,即对文本类型数据特征值化。本文仍是借助机器学习语言工具中的sklearn模块来完成。假设现有一段语言(文章):You will never know unless you try。我们要完成对这段文字进行特征抽取,我们先来看特征抽取的单词列表# -*- coding:utf-8 -*-# @Author: 数据与编程之美# @File: text_deal.py# ..原创 2021-01-01 15:10:51 · 1907 阅读 · 1 评论 -
数据特征处理之数值型数据(标准化)
本篇内容讨论的是数据特征处理中数据标准化方案,相比于在【数据特征处理之数值型数据(归一化)】中介绍的归一化方案由于自身的不足而导致的应用场景受限(数据量较小的工程、不稳定),数据标准化方案几乎克服了特征极值的影响,且完全适用于数据工程较大的场景。本文内容虽然很基础,但为了更加形象的理解知识内容,所以开始还是给出知识点的逻辑位置什么是特征处理?通过特定的统计方法(数学方法)将待处理数据转换为算法要求的数据的这个过程称为特征处理。标准化的特点对不同特征维度的伸缩变换使得不同度量之间的..原创 2021-01-01 15:04:02 · 1707 阅读 · 0 评论 -
数据特征处理之数值型数据(归一化)
什么是特征处理?通过特定的统计方法(数学方法)将待处理数据转换为算法要求的数据的这个过程称为特征处理。数值型数据归一化方案:归一化的特点对原始数据进行归一化处理后使其映射到指定范围内(通常默认是[0,1]之间)降低数据附带的量纲影响,使不同的特征具有相同的尺度(Scale),进而具有可比性(公平性)【注】 归一化也被称为最大最小标准化(min-max Normalization)、调节比例(Rescaling)我们常用的归一化...原创 2020-12-21 22:46:14 · 2291 阅读 · 0 评论 -
SAS JMP Statistical Pro 14.3 Win/Mac(文末获取)
简介SAS(全球最大的统计学软件公司)推出的一种交互式可视化统计发现软件系列,包括JMP,JMP Pro,JMP Clinical,JMP Genomics,SAS Simulation Studio for JMP等强大的产品线。主要用于实现统计分析。JMP在SAS的基础上形成了自己的算法,特别强调以统计方法的实际应用为导向,交互性、可视化能力强,使用方便,尤其适合非统计专业背景的数据分析人员使用,在同类软件中有较大的优势。安装安装前请先断网;安装前请先断网;下载解压SAS JMP ...原创 2020-09-20 22:09:11 · 3591 阅读 · 18 评论 -
MATLAB 2020a 安装方法
MathWorks Matlab R2020a是一款由MathWorks开发的多范式数值计算环境和专有编程语言,是全球最强大、最实用超强商业数学软件,主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。欢迎需要此款工具的朋友前来下载使用。安装教程:https://www.datapro.cool/179.html...原创 2020-07-19 12:30:22 · 2936 阅读 · 0 评论 -
SAS JMP Statistical 14.3 下载与安装
不谢:https://www.xuebear.com/1456.html原创 2020-04-07 07:48:56 · 2632 阅读 · 0 评论 -
Eviews10.0下载与安装
拿走不谢:下载地址:https://www.xuebear.com/1230.html原创 2020-03-28 13:44:11 · 5158 阅读 · 3 评论 -
归一化,标准化辨析详解
原文地址:https://www.xuebear.com/normalization/1180.html最近在整理PCA(主成分分析)的知识点时,留意到在数据预处理时的标准化,进而想到数据预处理的方法有多个,在此准备将这些方法整理,也顺便加深下自己的理解。常见的主要有 归一化、标准化、分数标准化、范数标准化,我们目前最最常见的要数前两种。 ps:网上看了整整一上午,有关...原创 2020-03-25 08:18:46 · 436 阅读 · 0 评论