机器学习（一）

最新推荐文章于 2021-09-24 16:52:21 发布

温暖的兮忆

最新推荐文章于 2021-09-24 16:52:21 发布

阅读量139

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/weixin_37986381/article/details/103843309

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一名词：

机器学习的数据：文件csv

pandas：读取工具

numpy：释放了GIL锁，真正的多线程

可用数据集：kaggle-大数据竞赛平台，真实数据，数据量大；UCI-涵盖了科学生活/经济等领域；scikit-learn:数据量小，学习方便

结构：特征值+目标值

dataFrame 缺失值，数据转换

机器学习：重复值，不需要处理

1.字典数据抽取：把字典中一些类别的数据，分别进行转换成特征数据

数组形式：有类别的这些特征，先要转换字典数据，

one-hot编码：我们作的是为每个类别生成一个布尔列，这些列中只有以列可以为每个杨门取值1，因此术语一个热编码

2.文本特征抽取：对文本数据进行特征值化;（CountVectorize())

对单个英文字母不统计，没有分类的依据

中文：需要分词后使用，jieba分词

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction import DictVectorizer
import jieba

def dicvec():
    ###dict = DictVectorizer(sparse=False)
    dict = DictVectorizer()

    data = dict.fit_transform([{'city': 'shanghai', 'temperature': 100.2}, {'city': 'beijing', 'temperature': 10},
                               {'city': 'hangzhou', 'temperature': 85}])
    print(dict.get_feature_names())
    print(data)
    print("#"*50)
    print(dict.inverse_transform(data))

    return None

dicvec()


vector = CountVectorizer()


res = vector.fit_transform(["Life is short , i like python", "Life is too long , i dislike python"])

print(vector.get_feature_names())

print("*"*30)

print(res.toarray())
con1 = jieba.cut("人生苦段，我喜欢python", "人生漫长,我不喜欢python")
print("hello----------")
print(con1)
c1 = ' '.join(con1)
content1 = list([con1])



print(content1)

温暖的兮忆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（一）

一名词：机器学习的数据：文件csvpandas：读取工具numpy：释放了GIL锁，真正的多线程可用数据集：kaggle-大数据竞赛平台，真实数据，数据量大；UCI-涵盖了科学生活/经济等领域；scikit-learn:数据量小，学习方便结构：特征值+目标值dataFrame 缺失值，数据转换机器学习：重复值，不需要处理1.字典数据抽取：把字典中一些类别的数据，分...
复制链接

扫一扫