在这篇文章中,我主要对解读代码过程中所学习认识的一些知识点进行归纳总结。
1.enumerate() 函数:
用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标。
用法:enumerate(sequence,[startindex=0])
其中sequence表示某一可迭代数据对象,startindex为起始位置。
2.freq=Counter(tokens)
用于统计tokens中各元素出现频率,并返回一个字典,tokens为一个可迭代对象。
freq.most_common()则可以对各元素按照出现频率进行排序。
3.pd.get_dummies:
若数据有n种类别则产生n列,生成一个类似分类表格的东西,表格中依据元素对各行各列对应值赋予1或0.
4.xxx.value_counts():
可以对一组数据进行分类并列出每一类的数量。
5.PandasQ中Series和DataFrame:
两种数据类型中都有nunique()和unique()方法。用于求Series或Pandas中的不同值。 unique()方法返回的是去重之后的不同值,而nunique()方法则直接放回不同值的个数。