fromkeys:创建新字典,也可不指定值
dict = dict.fromkeys(seq, 10)
print “新字典为 : %s” % str(dict)
/
新字典为 : {‘Google’: 10, ‘Taobao’: 10, ‘Runoob’: 10}
rstrip:删除 string 字符串末尾的指定字符
str = “88888888this is string example…wow!!!8888888”;
print str.rstrip(‘8’);
/
88888888this is string example…wow!!!
CountVectorizer:是通过fit_transform函数将文本中的词语转换为词频矩阵,矩阵元素a[i][j] 表示j词在第i个文本下的词频。即各个词语出现的次数,通过get_feature_names()可看到所有文本的关键字,通过toarray()可看到词频矩阵的结果。
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(max_features = 5000)
train_data_features = vectorizer.fit_transform(df.clean_review).toarray()
/
词频矩阵
strip() :方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列,默认指定字符为空格
str = “00000003210Runoob01230000000”;
print str.strip( ‘0’ ); # 去除首尾字符 0
/
3210Runoob0123
sum((2, 3, 4), 1) # 元组计算总和后再加 1,也可以用于列表等等
/
10
join:指定字符连接序列中元素后生成的新字符串
re.split:
re.sub:
asarray:数组转换为ndarray
np.array(默认情况下)将会copy该对象,而 np.asarray除非必要,否则不会copy该对象
a= [1,2]
numpy.asarray(a,‘f’)
array([1.,2.], dtype=float32)
items() 返回可遍历的(键, 值) 元组数
round:返回浮点数x的四舍五入值。
percentile:至少有p%的数据项小于或等于这个值
enumerate(枚举) 对象
tf.fill:
tf.strided_slice:
tf.concat: