这里写自定义目录标题
机器学习基础-特征工程
特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性。
特征抽取
sklearn.feature_extraction
字典特征抽取
def dictvec():
"""
字典数据抽取
:return: None
"""
# 实例化
dict = DictVectorizer(sparse=False)
# 调用fit_transform
data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
print(dict.get_feature_names())
print(dict.inverse_transform(data))
print(data)
return None
文本特征抽取
英文文本
def countvec():
"""
对文本进行特征值化
:return: None
"""
cv = CountVectorizer()
data = cv.fit_transform(["人生 苦短,我 喜欢 python", "人生漫长,不用 python"])
print(cv.get_feature_names())
print(data.toarray())
return None
中文文本
先用jieba进行分词
tf-idf(词频-逆向文件频率)
tf词频 表示词条在文本中出现的频率
t
f
=
在
某
一
类
中
词
条
w
出
现
的
次
数
该
类
中
所
有
的
词
条
数
目
tf =\frac{在某一类中词条w出现的次数}{该类中所有的词条数目}
tf=该类中所有的词条数目在某一类中词条w出现的次数
idf逆向文件频率:由总文件数目厨艺包含该词语的文件的数目。再将得到的商取对数得到。包含词条的文档越少,idf越大,说明词条具有很好的分类区分能力
i
d
f
=
l
o
g
语
料
库
的
文
档
总
数
包
含
词
条
w
的
文
档
数
+
1
idf=log\frac{语料库的文档总数}{包含词条w的文档数+1}
idf=log包含词条w的文档数+1语料库的文档总数
def cutword():
con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。")
con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。")
con3 = jieba.cut("如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")
# 转换成列表
content1 = list(con1)
content2 = list(con2)
content3 = list(con3)
# 吧列表转换成字符串
c1 = ' '.join(content1)
c2 = ' '.join(content2)
c3 = ' '.join(content3)
return c1, c2, c3
def hanzivec():
"""
中文特征值化
:return: None
"""
c1, c2, c3 = cutword()
print(c1, c2, c3)
cv = CountVectorizer()
data = cv.fit_transform([c1, c2, c3])
print(cv.get_feature_names())
print(data.toarray())
return None
def tfidfvec():
"""
中文特征值化
:return: None
"""
c1, c2, c3 = cutword()
print(c1, c2, c3)
tf = TfidfVectorizer()
data = tf.fit_transform([c1, c2, c3])
print(tf.get_feature_names())
print(data.toarray())
return None
特征处理
数值类型
归一化和标准化
归一化
X
′
=
x
−
m
i
n
m
a
x
−
m
i
n
X'=\frac{x-min}{max-min}
X′=max−minx−min
特点:注意在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。
标准化
X
′
=
x
−
m
e
a
n
σ
X'=\frac{x-mean}{\sigma}
X′=σx−mean
特点:通过对原始数据进行变换把数据变换到均值为0,方差为1范围内。如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。
def mm():
"""
归一化处理
:return: NOne
"""
mm = MinMaxScaler(feature_range=(2, 3))
data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])
print(data)
return None
def stand():
"""
标准化缩放
:return:
"""
std = StandardScaler()
data = std.fit_transform([[ 1., -1., 3.],[ 2., 4., 2.],[ 4., 6., -1.]])
print(data)
return None
缺失值处理
差补法
通过每行或每列的平均值或者众数来填充
def im():
"""
缺失值处理
:return:NOne
"""
im = SimpleImputer(missing_values= np.nan, strategy='mean', axis=0)
data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])
print(data)
return None
删除法
当某列的缺失值超过一定的比例阈值,可以直接删除。
特征选择
filter过滤式
sklearn.feature_selection.VarianceThreshold
删除低方差的特征
embedded嵌入式
例:正则化、决策树