自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 问答 (2)
  • 收藏
  • 关注

原创 python3.8下安装scrapy踩坑记录

直接通过pip install scrapy总是报错,去看什么错误发现就是安装的过程中没有下载完成,是网络问题,试了几次之后下载文件终于正常了,却在安装的时候报错Twisted…error 上网查资料,发现是缺少Twisted文件,去官网:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted下载对应python版本的Twisted的.whl文件,cp38就是对应python3.8,其他版本同理,64位和32位都下载过来(我电脑是64位,却只能装32位的)复制

2020-07-27 17:38:48 739

原创 python常用的知识点

判断是否为空: if example is None: pass if example is not None: pass # 必须清楚example等于None, False, 空字符串"", 0, 空列表[], 空字典{}, 空元组()时对判断没有影响才行 判断是否在某个列表里: example = [ 1, 6, 3, 5, 3, 4 ] if 5 in example: pass 写文件 with open("文件名", 'wb', encoding='u

2020-07-27 17:36:36 86

原创 自然语言处理入门的路-分词3

语言模型里的马尔可夫假设 统计分词通过建立语言模型对分词结果进行概率运算从而得到更好的分词结果,一般有HMM(隐式马尔可夫模型)和CRF(条件随机场)。 P(S) = p(w1,w2,w3,w4,w5,w6,…,wn) = p(w1) * p(w2|w1) * p(w3|w1,w2) * … * p(wn|w1,w2,wn-1) p(S)就是语言模型,用来计算一个句子的概率,依靠的是这个句子的各个词 可以发现计算出完美的p(S),就要计算所有词的联合概率,就要考虑每个词和这个词前面所有词的关系,显然

2020-07-12 23:30:14 140

原创 自然语言处理入门的路-分词2

使用语言模型评估分词结果 首先得到所有可能的分词结果,把分词结果放进语言模型进行概率计算,得到概率值最高的。 语言模型的计算过程:(N元文法) 第一种,unigram LM。认为每个单词出现的概率都是独立的,将各单词的概率相乘总体的概率评分 这里的概率是统计出来的或者是通过深度学习计算的结果 概率计算的时候,注意单词的概率可能非常小,直接用于计算则会出现精度丢失等问题,所以可以使用log方法,log函数是递增的所以不影响 注意概率是0的情况(后面补充) 缺点: 要生成所有可能的分词结果再逐个

2020-07-11 23:44:54 110

原创 自然语言处理入门的路-分词1

分词据说是nlp的入门级技术,分词分不好后面很多工作都会受到影响。 掌握分词的常见算法,形成自我的认识,最好用串起来的方式。 分词之最大匹配算法 分为前向最大匹配,逆向最大匹配,双向最大匹配。 这算法挺简单的,三者之间的关系也很清晰。主要在于这个maxlength的选取了。 前向最大匹配,一句话,一个词库,一个maxlength,借用一个for循环就能从左往右匹配词语了。 逆向最大匹配是从右往左匹配。 双向最大匹配是正向匹配一遍,逆向再匹配一遍,然后比较这俩的结果: 结果一样,说明没有歧义,直接返回; 结果

2020-07-10 23:21:31 132

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除