机器学习基础第一天(文本特征抽取与数据预处理)

最新推荐文章于 2023-08-07 09:41:56 发布

fuhanbang

最新推荐文章于 2023-08-07 09:41:56 发布

阅读量268

点赞数

文章标签： python 机器学习数据分析

本文链接：https://blog.csdn.net/fuhanbang/article/details/108960598

版权

本文介绍了如何使用Python进行中文文本特征抽取，包括使用jieba进行分词，以及CountVectorizer和TfidfVectorizer进行特征值量化。此外，还展示了数据预处理技术，如归一化、标准化、缺失值处理和特征选择。

摘要由CSDN通过智能技术生成

机器学习基础第一天(文本特征抽取与数据预处理)

文本特征抽取以及中文问题

from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import jieba
import numpy as np

# jieba 分解中文函数
def cutword():

    con1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。")

    con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。")

    con3 = jieba.cut("如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")

    # 转换成列表
    content1 = list(con1)
    content2 = list(con2)
    content3 = list(con3)

    # 把列表转换成字符串
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)
    c3 = ' '.join(content3)

    return c1, c2, c3
# 定义函数，
# def hanzivec():
#     """
#     中文特征值化
#     :return: None
#     """
#     c1, c2, c3 = cutword()

#     print(c1, c2, c3)
#     实例化
#     cv = CountVectorizer()

#     data = cv.fit_transform([c1, c2, c3])
#     print(data)

#     print(cv.get_feature_names())

#     print(data.toarray())

#     return None

# if __name__ == "__main__":
#     hanzivec()
def tfidfvec():
    """
    中文特征值化
    :return: None
    """
    c1, c2, c3 = cutword()

    print(c1, c2, c3)

    tf = TfidfVectorizer()

    data = tf.fit_transform([c1, c2, c3])

    print(tf.get_feature_names())

    print(data.toarray())

    return None
if __name__ == "__main__":
    tfidfvec()

结果展示：

今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。 我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。 如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。
['一种', '不会'