数据预处理
文章平均质量分 65
空字符(公众号:月来客栈)
Talk is cheap, show me your code.
展开
-
Scikit-learn CountVectorizer与TfidfVectorizer
本文主要介绍两个类的基本使用,CountVectorizer与TfidfVectorizer,这两个类都是特征数值计算的常见方法。对于每一个训练文本,CountVectorizer只考虑每种词汇在该训练文本中出现的频率,而TfidfVectorizer除了考量某一词汇在当前训练文本中出现的频率之外,同时关注包含这个词汇的其它训练文本数目的倒数。相比之下,训练文本的数量越多,TfidfVectoriz原创 2018-01-18 10:54:42 · 27027 阅读 · 14 评论 -
dataframe 分割某一列
转自:https://www.jianshu.com/p/4a2ecf65e3ea原数据:考核方式ABCD十项值(A:1,B:2,C:3,D:4)教师姓名考试2,2,2,2,2,2,1,2,2,20考试2,3,3,3,2,2,2,2,2,21考试1,1,2,1,1,1,1,1,1,12考试1,2,2,2,3,2,2,3,1,23通过...转载 2018-10-08 14:30:24 · 4827 阅读 · 0 评论 -
tensorflow.contrib.learn.preprocessing.VocabularyProcessor
今天要记录的是TensorFlow中的一个非常有用的函数,以前都是自己手动现在这一功能,没想到居然有现成的。它就是learn.preprocessing.VocabularyProcessor,其作用,用官方的一句话来说就是 Learn the vocabulary dictionary and return indexies of words.实现的功能就是,根据所有已分词好的文本建立好一个...原创 2018-08-17 08:45:43 · 5317 阅读 · 3 评论 -
Gensim之Word2Vec使用手册
1.介绍一句话,Gensim中的Word2Vec类就是用来训练词向量的,这个类实现了词向量训练的两种基本模型skip-gram和CBOW,可以通过后面的参数设置来选择。但是,在Gensim这个模块中训练词向量的方法还有很多:gensim.models.doc2vec.Doc2Vec,gensim.models.fasttext.FastText,gensim.models.wrappers.V...原创 2018-08-16 08:39:13 · 13692 阅读 · 8 评论 -
CNN英文垃圾邮件分类(数据预处理)
本文最后会贴出所有的源代码文件,下文只是针对每个小点贴出代码进行注释说明,可以略过。1.思路 关于利用CNN做文本分类,其主要思想通过下面这幅图就能够一目了然。本文主要记录了利用CNN来分类英文垃圾邮件的全过程。数据集主要包含两个文件:里面分别是垃圾邮件和正常邮件,用记事本就能打开。先来看看数据集长什么样: simplistic , silly and tedious . ...原创 2018-08-14 08:18:54 · 7477 阅读 · 5 评论 -
利用随机森林对特征重要性进行评估
转自:https://blog.csdn.net/zjuPeco/article/details/77371645?locationNum=7&fps=1#commentsedit我们知道,随机森林大致可以看成是从生成的多个决策树种挑选最优的那一棵。所以在训练的过程中就会按照不同特征维度的先后划分方式来建立决策树。因此,最优那棵树所对应的特征划分顺序也就代表着特征的重要程度。 看例...转载 2018-07-22 09:54:26 · 10258 阅读 · 15 评论 -
去除数据集中出现频率较低的样本
有如下两个文本(为了排版,我把标签也放在一起了,数字表示标签)其中data.txt是样本,label.txt是标签。 data.txt label.txt 涤纶梭织染色布0 全涤布1 皮革服装2 涤纶梭织染色布0 全涤布1 皮革服装2 短毛绒3 皮革服装2 短毛绒3 仿棉绒4 小缸费5 皮革服装2 短毛绒3 ...原创 2018-07-15 09:02:04 · 1324 阅读 · 1 评论 -
python中判断字符串中是否含有中文字符
转自:http://www.cnblogs.com/changzhi/p/3376140.html首先,在python中字符串的表示是用unicode编码。所以在做编码转换时,通常要以unicode作为中间编码。decode的作用是将其他编码的字符串转换成unicode编码,比如a.decode('utf-8'),表示将utf-8编码的字符串转换成unicode编码。encode的作用是将...转载 2018-07-20 08:35:04 · 7455 阅读 · 0 评论 -
利用jieba进行中文分词并进行词频统计
1.安装jieba库在windows的Anaconda环境下如果没有设置环境变量,则从Dos命令先进入...\Anaconda3\Scripts 目录中,然后运行以下命令即可:pip install jieba2.分词示例我们先用一段文本来进行分词并做词频统计: 央视网消息:当地时间11日,美国国会参议院以88票对11票的结果通过了一项动议,允许国会“在总统以国家安全为...原创 2018-07-13 10:33:39 · 36187 阅读 · 2 评论 -
list去重及求两个list中元素的重复率
假设有A,B两个list;求两个list中相同元素在其中一个list中的占比。思路:1.分别用set()去除两个list中个字重复的元素 2.将两个list相加构成第三个list C 3.A,B各自去重后元素个数的和减去C中去重后元素的个数就是连个list重复的元素A = ['A','B','C','AB','DF','C']B = ['A','B','DF','H','OP...原创 2018-07-16 10:55:33 · 2334 阅读 · 1 评论 -
最佳特征筛选与feature_selection
本文介绍的是如何利用scikit learn中的feature_selection模块来筛选最佳特征。1.读取数据并进行填充titanic=pd.read_csv('./titanic.txt')# print titanic.head()# print titanic.info()#分离数据特征与预测目标y=titanic['survived'] # 提取出survived原创 2018-01-20 10:53:55 · 2830 阅读 · 0 评论 -
用pandas处理缺失值补全及DictVectorizer特征转换
下面介绍的是用pands读取泰坦尼克遇难船员的数据,然后挑选特征,补全缺失值,特征转换。1.pands读取数据titanic=pd.read_csv('./titanic.txt')其数据形式如下: row_num pclass survived name age embarked home.dest room ticket boat sex 3 1原创 2018-01-19 10:03:17 · 4456 阅读 · 0 评论 -
如何用pandas读取CVS格式数据
本文主要介绍的是如何利用pandas来读取CVS格式的数据 CVS格式指的是:每个元素之间均已逗号隔开,不管文件后缀名是什么,例如.txt,.data等等如#x.txt1,2,34,5,6----------------------------------------------------------column_name=['A','B','C']t=pd.read原创 2018-01-10 16:21:57 · 3885 阅读 · 0 评论 -
Scikit-learn——LogisticRegression与SGDClassifier
1.sklearn.linear_model.logistic regression一般来说,逻辑回归用梯度下降算法来求解参数比较常见;所以这也导致一开始误以为LogisticRegression模型就是用梯度下降算法来实现的,当遇到SGDClassifier(Stochastic Gradient Descent)随机梯度下降分类器的时候,就有点蒙了。梯度下降明明是一个求解算法,怎么就和分类器扯上原创 2018-01-18 20:27:17 · 12729 阅读 · 2 评论 -
dataframe 按条件替换某一列中的值
import pandas as pdcontent = ['T', 'F'] * 10data = pd.DataFrame(content, columns=['Y'])print(data)Y0 T1 F2 T3 F4 T5 F6 T7 F8 T9 F10 T11 F12 T13 F14 T15 ...原创 2018-10-20 19:35:53 · 55044 阅读 · 10 评论