机器学习(一)

一 名词:

机器学习的数据:文件csv

pandas:读取工具

numpy:释放了GIL锁,真正的多线程

可用数据集:kaggle-大数据竞赛平台,真实数据,数据量大;UCI-涵盖了科学生活/经济等领域;scikit-learn:数据量小,学习方便

结构:特征值+目标值

dataFrame 缺失值,数据转换

机器学习:重复值,不需要处理

1.字典数据抽取:把字典中一些类别的数据,分别进行转换成特征数据

数组形式:有类别的这些特征,先要转换字典数据,

one-hot编码:我们作的是为每个类别生成一个布尔列,这些列中只有以列可以为每个杨门取值1,因此术语一个热编码

2.文本特征抽取:对文本数据进行特征值化;(CountVectorize())

对单个英文字母不统计,没有分类的依据

中文:需要分词后使用,jieba分词

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction import DictVectorizer
import jieba

def dicvec():
    ###dict = DictVectorizer(sparse=False)
    dict = DictVectorizer()

    data = dict.fit_transform([{'city': 'shanghai', 'temperature': 100.2}, {'city': 'beijing', 'temperature': 10},
                               {'city': 'hangzhou', 'temperature': 85}])
    print(dict.get_feature_names())
    print(data)
    print("#"*50)
    print(dict.inverse_transform(data))

    return None

dicvec()


vector = CountVectorizer()


res = vector.fit_transform(["Life is short , i like python", "Life is too long , i dislike python"])

print(vector.get_feature_names())

print("*"*30)

print(res.toarray())
con1 = jieba.cut("人生苦段,我喜欢python", "人生漫长,我不喜欢python")
print("hello----------")
print(con1)
c1 = ' '.join(con1)
content1 = list([con1])



print(content1)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值