Python每日学习总结(八)

本文介绍了Python在数据处理中的几种关键操作,包括数据转换、属性构造和数据规约。在数据转换中,讨论了离差标准化、标准差标准化和小数定标规范化等方法。此外,还涉及主成分分析(PCA)在属性规约中的应用,以及如何使用jieba库进行文本挖掘和词性标注。最后,简述了TF-IDF和Doc2Bow在文本相似度分析中的作用。
摘要由CSDN通过智能技术生成

1.数据转换

(1)简单变化:

数据变换的目的是将数据转换为更方便分析的数据

简单变换通常使用函数变换的方式进行,常见的函数变换包括:开方,平方,对数等

(2)数据规范化:

离差标准化--消除量纲(单位)影响以及变异大小因素的影响 (最小-最大标准化)

x1=(x-min)/(max-min)

标准差标准化--消除单位影响以及变量自身变异影响 (零-均值标准化)

x1=(x-平均数)/标准差

小数定标规范化--消除单位影响

x1=x/10**(k)

k=log10(x的绝对值的最大值)

import pymysql

import pandas as pda

import numpy as npy

conn=pymysql.connect(host="127.0.0.1",user="root",passwd='root',db='csdn')

sql="select price,comment from taob"

data=pda.read_sql(sql,conn)

#离差标准化

data2=(data-data.min())/(data.max()-data.min())

print(data2)

#标准差标准化

data3=(data-data.mean())/data.std()

print(data3)

#小数定标规范化

k=npy.log10(data.abs().max())

data4=data/10**k

print(data4)

(3)离散化:

等宽离散化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值