Python
文章平均质量分 89
不知名的猫_
平平无奇的普通大学生
展开
-
基于Aho-Corasick算法的Ahocorasick库的使用
由于最近项目中需要使用Python的库进行模式匹配,因此记录该库所使用的到的算法(AC算法)的概要以及该库在Python中的具体使用方法。算法是多模式匹配中的经典算法,目前在实际应用中较多。算法对应的数据结构是自动机,简称AC自动机Automaton。该算法能够识别出一个给定的语句中包含了哪些词典库中特定的词语,具有很不错的模式匹配作用。原创 2022-11-20 22:04:53 · 2236 阅读 · 0 评论 -
双向最大匹配算法 BMM
中文分词算法分两大方向:一是机械分词算法, 一是基于统计的分词算法。本篇文章主要介绍机械分词算法中最基础的算法: 最大匹配算法(Maximum Matching, 一下简称MM算法)。MM算法有三种: 正向最大匹配算法( forwards maximum match algorithm), 逆向最大匹配算法( reverse directional algorithm)以及双向最大匹配算法(Bi-directional Maximum Match)。本文主要介绍的是双向最大匹配算法。原创 2022-11-20 14:33:51 · 2431 阅读 · 0 评论 -
Python:XPath爬虫基础
使用Python的lxml库的XPath来进行HTML网页的数据处理,爬虫应用原创 2022-11-19 22:26:59 · 2099 阅读 · 0 评论