贪心学院NLP学习记录
主要集中在贪心NLP网络课程的学习心得,主要以项目代码为主。
棉马咪
这个作者很懒,什么都没留下…
展开
-
Part 1.2 基于维特比算法来优化上述流程
基于维特比算法来优化上述流程 这一部分的代码就是构建词典,和前面一篇文章是一样的。 def create_dic(file_path): workbook = xlrd.open_workbook(file_path) booksheet = workbook.sheet_by_index(0) col_values = booksheet.col_values(0) dict_words = {} max_len_word = 0 for word in原创 2020-12-19 02:11:45 · 255 阅读 · 1 评论 -
Part 1.1 基于枚举方法来搭建中文分词工具
Part 1.1基于枚举方法来搭建中文分词工具内容介绍代码介绍 内容介绍 Step 1: 对于给定字符串:”我们学习人工智能,人工智能是未来“, 找出所有可能的分割方式 [我们,学习,人工智能,人工智能,是,未来] [我们,学习,人工,智能,人工智能,是,未来] [我们,学习,人工,智能,人工,智能,是,未来] [我们,学习,人工智能,人工,智能,是,未来] … Step 2: 我们也可以计算出每一个切分之后句子的概率 p(我们,学习,人工智能,人工智能,是,未来)= -log p(我们)-l原创 2020-12-17 21:36:15 · 241 阅读 · 0 评论 -
前向最大匹配(NLP分词操作)
前向最大匹配算法介绍代码展示 备注:文章仅帮助自己学习使用。 算法介绍 例如一个简易词典为:{“我们”,“喜欢”,“我”, “你们”, “苹果”, “水果”, “很”, “果”} 那么当输入的句子为 我们很喜欢苹果,那么分词的结果为【我们/很/喜欢/苹果】 虽然词典中有我,果等单词,但是不满足最大匹配的原则。 此外,还包括反向最大匹配,双向最大匹配,意思类似。 代码展示 1.文件准备/词库准备 train_text = r"XXXXXXXXXXX\train.txt" # 用于生成字典保存所有的单词 te原创 2020-12-17 01:45:48 · 803 阅读 · 0 评论