dataframe 按条件替换某一列中的值

import pandas as pd content = ['T', 'F'] * 10 data = pd.DataFrame(content, columns=['Y']) print(data) Y 0 T 1 F 2 T 3 F 4 T 5 F 6 T 7...

2018-10-20 19:35:53

阅读数:328

评论数:0

dataframe 分割某一列

转自:https://www.jianshu.com/p/4a2ecf65e3ea 原数据: 考核方式 ABCD十项值(A:1,B:2,C:3,D:4) 教师姓名 考试 2,2,2,2,2,2,1,2,2,2 0 考试 2,3,3,3,2,2,2,2,2,2 1 考试 1,...

2018-10-08 14:30:24

阅读数:149

评论数:0

tensorflow.contrib.learn.preprocessing.VocabularyProcessor

今天要记录的是TensorFlow中的一个非常有用的函数,以前都是自己手动现在这一功能,没想到居然有现成的。它就是learn.preprocessing.VocabularyProcessor,其作用,用官方的一句话来说就是 Learn the vocabulary dictionary and ...

2018-08-17 08:45:43

阅读数:579

评论数:0

Gensim之Word2Vec使用手册

1.介绍 一句话,Gensim中的Word2Vec类就是用来训练词向量的,这个类实现了词向量训练的两种基本模型skip-gram和CBOW,可以通过后面的参数设置来选择。但是,在Gensim这个模块中训练词向量的方法还有很多:gensim.models.doc2vec.Doc2Vec,gensi...

2018-08-16 08:39:13

阅读数:479

评论数:0

CNN英文垃圾邮件分类(数据预处理)

本文最后会贴出所有的源代码文件,下文只是针对每个小点贴出代码进行注释说明,可以略过。 1.思路 关于利用CNN做文本分类,其主要思想通过下面这幅图就能够一目了然。 本文主要记录了利用CNN来分类英文垃圾邮件的全过程。数据集主要包含两个文件:里面分别是垃圾邮件和正常邮件,用记事本就能打开。...

2018-08-14 08:18:54

阅读数:421

评论数:0

利用随机森林对特征重要性进行评估

转自:https://blog.csdn.net/zjuPeco/article/details/77371645?locationNum=7&fps=1#commentsedit 我们知道,随机森林大致可以看成是从生成的多个决策树种挑选最优的那一棵。所以在训练的过程中就...

2018-07-22 09:54:26

阅读数:510

评论数:0

python中判断字符串中是否含有中文字符

转自:http://www.cnblogs.com/changzhi/p/3376140.html 首先,在python中字符串的表示是用unicode编码。所以在做编码转换时,通常要以unicode作为中间编码。 decode的作用是将其他编码的字符串转换成unicode编码,比如a.dec...

2018-07-20 08:35:04

阅读数:911

评论数:0

list去重及求两个list中元素的重复率

假设有A,B两个list;求两个list中相同元素在其中一个list中的占比。 思路: 1.分别用set()去除两个list中个字重复的元素 2.将两个list相加构成第三个list C 3.A,B各自去重后元素个数的和减去C中去重后元素的个数就是连个list重复的元素 A = ['...

2018-07-16 10:55:33

阅读数:92

评论数:0

去除数据集中出现频率较低的样本

有如下两个文本(为了排版,我把标签也放在一起了,数字表示标签)其中data.txt是样本,label.txt是标签。 data.txt label.txt 涤纶梭织染色布0 全涤布1 皮革服装2 涤纶梭织染色布0 全涤布1 皮革服装2 短毛绒3 ...

2018-07-15 09:02:04

阅读数:86

评论数:0

利用jieba进行中文分词并进行词频统计

1.安装jieba库 在windows的Anaconda环境下如果没有设置环境变量,则从Dos命令先进入...\Anaconda3\Scripts 目录中,然后运行以下命令即可: pip install jieba 2.分词示例 我们先用一段文本来进行分词并做词频统计: 央视网...

2018-07-13 10:33:39

阅读数:676

评论数:0

最佳特征筛选与feature_selection

本文介绍的是如何利用scikit learn中的feature_selection模块来筛选最佳特征。 1.读取数据并进行填充 titanic=pd.read_csv('./titanic.txt') # print titanic.head() # print titanic.info(...

2018-01-20 10:53:55

阅读数:607

评论数:0

用pandas处理缺失值补全及DictVectorizer特征转换

下面介绍的是用pands读取泰坦尼克遇难船员的数据,然后挑选特征,补全缺失值,特征转换。1.pands读取数据titanic=pd.read_csv('./titanic.txt')其数据形式如下: row_num pclass survived name age ...

2018-01-19 10:03:17

阅读数:1579

评论数:0

Scikit-learn——LogisticRegression与SGDClassifier

1.sklearn.linear_model.logistic regression一般来说,逻辑回归用梯度下降算法来求解参数比较常见;所以这也导致一开始误以为LogisticRegression模型就是用梯度下降算法来实现的,当遇到SGDClassifier(Stochastic Gradien...

2018-01-18 20:27:17

阅读数:4314

评论数:2

Scikit-learn CountVectorizer与TfidfVectorizer

本文主要介绍两个类的基本使用,CountVectorizer与TfidfVectorizer,这两个类都是特征数值计算的常见方法。对于每一个训练文本,CountVectorizer只考虑每种词汇在该训练文本中出现的频率,而TfidfVectorizer除了考量某一词汇在当前训练文本中出现的频率之外...

2018-01-18 10:54:42

阅读数:14816

评论数:9

如何用pandas读取CVS格式数据

本文主要介绍的是如何利用pandas来读取CVS格式的数据 CVS格式指的是:每个元素之间均已逗号隔开,不管文件后缀名是什么,例如.txt,.data等等 如 #x.txt 1,2,3 4,5,6 -------------------------------------------...

2018-01-10 16:21:57

阅读数:1033

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭