![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本分析
文章平均质量分 64
水果翻炒数据
厚积薄发,简约至上
展开
-
01文本文件读取和CSV文件的读取
前言1、为了进行下一步的分词操作,我们需要读取停用词表(分词中需去除的无用词)、评论数据。2、停用词表的文件格式为txt,评论数据的文件格式为csv。我们通常使用open()函数读取txt,使用pandas库的read_csv方法读取csv文件。文本文件的输入输出文本文件的读写主要通过**open()**所构建的文件对象来实现。help(open)重点掌握参数file : 一个包含了...原创 2018-12-14 15:55:38 · 1015 阅读 · 0 评论 -
02结巴分词和打标任务代码设计
前言1)处理的数据越大,对性能的要求越高,我们需要逐步学习python代码编写的性能方面的知识2)学习程序设计,可以将一些机械化的人工操作让代码代劳python知识补充1、时间查看当前时间:datetime.datetime.now()import datetime#查看当前时间now_time = datetime.datetime.now()print(now_time)...原创 2018-12-24 09:07:33 · 1398 阅读 · 0 评论 -
03数据清洗与自定义函数
前言1)本节课学习正则表达式的用法,为数据清洗打下基础2)学习函数相关知识,提高代码的重用性以及可读性python知识的补充1、字符替换与正则表达式简单的字符替换str.replace()print(help(str.replace))Help on method_descriptor:replace(...) S.replace(old, new[, coun...原创 2018-12-29 11:21:20 · 358 阅读 · 0 评论 -
05词向量表示理论篇
一、离散表示1、词离散表示:One-hot 表示语料库:李杏 喜欢 喝 奶茶 诗雅 也 喜欢 喝 奶茶李杏 同样 喜欢 喝 果汁 词典:{“李杏”:1,”喜欢”:2,”喝”:3,”奶茶”:4,”诗雅”:5,”也”:6,”同样”:7,”果汁”:8}One-hot 表示:李杏:[1,0,0,0,0,0,0,0] 喜欢:[0,1,0,0,0,0,0,0] … 果汁:[0,0...原创 2019-01-14 16:38:36 · 375 阅读 · 0 评论 -
06词特征表示实践
读取数据import pandas as pdcorpus=list(pd.read_table('words.txt').iloc[:,0])#提取语料中的十个句子进行演示corpus=corpus[10:20]词特征表示方法Common Vectorizer usagesklearnfrom sklearn.feature_extraction.text import Coun...原创 2019-01-22 16:56:21 · 334 阅读 · 0 评论 -
07特征选择与降维
一、特征选择当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。 根据特征选择...原创 2019-03-03 14:24:42 · 312 阅读 · 0 评论