- 博客(4)
- 收藏
- 关注
原创 Python3中str和byte需要显示转换
Python2.x中str和byte之间没有明显区别,如果不指定编码格式,默认的编码是ascii,不进行转换会出现“UnicodeDecodeError: 'ascii' codec can't decode byte ”的错误,因此经常要依赖于defaultencoding来做转换,如下: import sys reload(sys) sys.setdefaultencoding('utf8...
2018-10-22 10:00:09 3266
原创 关键词提取——TF-IDF
词频-逆文档率TF-IDF(Term Frequency-Iverse Document Frequency)是一种依赖语料库的关键词提取方法。 该方法主要分为三步: Step1: 计算词频(考虑文章长短不同,需要进行标准化) 词频(TM) = 某词出现的次数 / 文章总词数 Step2: 计算逆文档率(通常会根据语料库预先计算生成 “词 逆文档率” 的id...
2018-10-18 15:43:26 330
原创 Python3—— 字典(Dictionary) get()方法
get() 函数返回指定键的值,如果值不在字典中返回默认值。 下例实现字典中的键值加1,若不存在则添加键值计数为1 freq = {'你好':8, '早上':3} freq['你好'] = freq.get('你好', 0.0)+1.0 freq['在吗'] = freq.get('在吗', 0.0)+1.0 for i in freq: print(freq[i]) 输出结果:...
2018-10-18 15:12:30 1037
原创 Python3——赋值_可迭代
如果赋值对象是可迭代的,那么赋值给一个变量则结果是整个可迭代对象,赋值给多个变量则结果是该迭代对象对应位置的值。 line = '你好 8' wordslist = line.split(' ') word, freq = line.split(' ') print(wordslist) print(word) print(freq) 输出结果: ['你好', '8'] 你好 8 也可以...
2018-10-18 14:50:22 706
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人