自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Python3中str和byte需要显示转换

Python2.x中str和byte之间没有明显区别,如果不指定编码格式,默认的编码是ascii,不进行转换会出现“UnicodeDecodeError: 'ascii' codec can't decode byte ”的错误,因此经常要依赖于defaultencoding来做转换,如下: import sys reload(sys) sys.setdefaultencoding('utf8...

2018-10-22 10:00:09 3266

原创 关键词提取——TF-IDF

词频-逆文档率TF-IDF(Term Frequency-Iverse Document Frequency)是一种依赖语料库的关键词提取方法。 该方法主要分为三步: Step1: 计算词频(考虑文章长短不同,需要进行标准化)             词频(TM) =  某词出现的次数  /  文章总词数 Step2: 计算逆文档率(通常会根据语料库预先计算生成 “词  逆文档率” 的id...

2018-10-18 15:43:26 330

原创 Python3—— 字典(Dictionary) get()方法

 get() 函数返回指定键的值,如果值不在字典中返回默认值。 下例实现字典中的键值加1,若不存在则添加键值计数为1 freq = {'你好':8, '早上':3} freq['你好'] = freq.get('你好', 0.0)+1.0 freq['在吗'] = freq.get('在吗', 0.0)+1.0 for i in freq: print(freq[i]) 输出结果:...

2018-10-18 15:12:30 1037

原创 Python3——赋值_可迭代

如果赋值对象是可迭代的,那么赋值给一个变量则结果是整个可迭代对象,赋值给多个变量则结果是该迭代对象对应位置的值。 line = '你好 8' wordslist = line.split(' ') word, freq = line.split(' ') print(wordslist) print(word) print(freq) 输出结果: ['你好', '8'] 你好 8 也可以...

2018-10-18 14:50:22 706

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除