机器学习常用工具

机器学习常用工具

  • jieba分词器
    • jieba.cut(content): 返回一个生成器, 迭代可以返回文本
    • jieba.lcut(content): 直接返回文本
    • jieba.cut_for_search(content): 搜索引擎模式
    • jieba.analyse
      • extract_tags(content, topK=, withWeight=)
  • wordcloud
    • 使用步骤:
      • wordcloud=WordCloud(font_path="simhei.ttf",background_color="white",max_font_size=100)
      • word_frequence = {x[0]:x[1] for x in words_count.head(100).values}
      • wordcloud=wordcloud.fit_words(word_frequence)
      • plt.imshow()
  • matplotlib
    • rcParams: 动态配置参数, 主要配置图像的分辨率与像素
      • matplotlib.rcParams[‘figure.figsize’]# 图片像素
      • matplotlib.rcParams[‘savefig.dpi’]# 分辨率
      • plt.savefig(‘plot123_2.png’, dpi=200)# 指定分辨率
  • pandas
    • DataFrame的对象
      • set_index(): 指明最左列是什么, 默认是id号, 从0开始, 使用df.loc[0]等选择行的
      • reset_index(): 重置到id号的index
      • groupby(by=): 将行按照某一类合并在一起, 方便求和, 均值等
      • df[['col1', 'col2']].agg(['sum', 'mean'])
      • groupby与agg常常联合使用: df.groupby(by'col1')['col1'].agg(['sum', 'std', 'mean']) 方便:-)
      • apply: 传入一个函数参数, 对df中指定的列的每一个元素执行该函数
      • sort_values: 根据指定的列进行排序
      • sort_index: 根据index进行排序, 有set_index指定, 默认为id号, 从0开始
      • iloc: 只能参数int类型, index是从当前开始计算的
      • loc: 可以是bool类型和int类型, index是从原始数据得到的
    • read_table
    • read_csv
  • collections
    • defaultdict(func): 设置一个?默认值的dict, 为func的返回值. 如: lambda :1, list, int, str
  • gensim
    • 从宏观来看,gensim提供了一个发现文档语义结构的工具,通过检查词出现的频率。gensim读取一段语料,输出一个向量,表示文档中的一个词。
    • 使用的前提是有一个单词字典
    • doc2bow将字符串转为真正需要的向量, 该函数返回的值与corpora.Dictionary返回的对象经常一起作为lda, lsi和tfidf算法对象的参数传入(在gensim库中, 在jieba.analyse.extrag_tags不需要)
    • copy from others:
      • 如果要对文档的隐含结构进行推断,就需要一种数学上能处理的文档表示方法。一种方法是把每个文档表达为一个向量。有很多种表示方法,一种常见的方法是bag-of-words模型。在词袋模型中,每篇文档表示被表示成一个向量,代表字典中每个词出现的次数。例如,给定一个包含[‘coffee’,’milk’,’sugar’,’spoon’]的字典,一个包含[‘coffee milk coffee’]字符串的文档可以表示成向量[2,1,0,0]。向量各个元素的位置和字典的顺序相对应,向量的长度就是字典的长度。词袋模型的一个重要特点是,它完全忽略的单词在句子中出现的顺序,这也就是“词袋”这个名字的由来
    • 语料库corpus是一个多维度的向量, 有(id, count)组合
  • 数据处理小伎俩
    • 如果li = ['I', 'am', '?'], 使用''.join(li)转为字符串
    • 要让一组数据的每一个元素关联一组ID, 可以使用corpora.Dictionary创建字典, key为key, val为ID号, 一般用于python的文本数据分析处理
    • 划分X与y, X = data[:, data.columns != y_label], y = data[:, data.columns == y_label]

转载于:https://www.cnblogs.com/megachen/p/9555847.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值