不用类似re等工具,将输入英文文本,拆分成一个个有意义的单词。
(笔记模板由python脚本于2024年01月15日 23:34:05创建,本篇笔记适合会基础编程,熟悉python字符串的coder翻阅)
-
Python 官网:https://www.python.org/
-
Free:大咖免费“圣经”教程《 python 完全自学教程》,不仅仅是基础那么简单……
地址:https://lqpybook.readthedocs.io/
自学并不是什么神秘的东西,一个人一辈子自学的时间总是比在学校学习的时间长,没有老师的时候总是比有老师的时候多。
—— 华罗庚
- My CSDN主页、My HOT博、My Python 学习个人备忘录
- 好文力荐、 老齐教室
本文质量分:
本文地址: https://blog.csdn.net/m0_57158496/article/details/135613713
CSDN质量分查询入口:http://www.csdn.net/qc
- ◆ 英文分词
- 1、念想萌芽
- 2、算法解析
- 2.1 去除非字母字符
- 2.2 统计词频
- 2. 分词
- 3、完整源码(Python)
◆ 英文分词
1、念想萌芽
今天在 c s d n csdn csdn看到 j i e b a jieba jieba,脑中居然浮现出一个想法:“我可不可以撰写一段代码,实现 j i e b a jieba jieba一样的分词效果”。于是,我就开始了尝试……
2、算法解析
英 文 分 词 英文分词 英文分词,实现起来比中文分词相对容易,因为英文句子中的单词都是被非字母分隔开来的。只要把非字母字符替换成“同一字符”,就可以很方便地使用字符串方法 s t r . s p l i t ( ) str.split() str.split()把英文句子中的单词分割开来。再将 s t r . s o l i t ( ) str.solit() str.solit()方法返回的列表中的空字符串’'剔除,就达成了 英 文 分 词 英文分词 英文分词的目的。如果将无实际意义的代码词介词等单词清理,就准备好了做词云图片的文本数据了咯。😜
-
6 k + 6k+ 6k+
字符的试码文本
英 文 美 文 . t x t 英文美文.txt 英文美文.txt
-
实现效果截屏图片
分 词 列 表 分词列表 分词列表
词 频 统 计 词频统计 词频统计
中间部分略
2.1 去除非字母字符
列表解析遍历输入文本参数,用
三
元
操
作
语
句
三元操作语句
三元操作语句把非字母字符替换成一个英文空格’ ',返回“无缝”拼接的字符串(只有空格分隔的英文单词字符串),完成了输入文本的“预处理”。
Python代码
def _isletter(self):
''' 剔除非字母字符 '''
lowers = ''.join(chr(i) for i in range(ord('a'), ord('z')+1)) # 生成26个小写字母字符串。
letters = tuple(lowers+lowers.upper())
#input(letters) # 校验字母列表。
words = [i if i in letters else ' ' for i in self.words] # 把非字母替换成英文空格字符。
return ''.join(words)
2.2 统计词频
词频统计,一般用字典比较方便。一次遍历输入分词列表就可以完成统计,将遍历到的单词在统计字典中的相应键值
+
1
+1
+1,遍历完分词列表也就完成了词频统计。
我在今天的代码中,用了另一种“ 算 法 算法 算法”——用 p y t h o n python python集合 s e t set set的唯一特性对分词列表去重作为遍历序列,遍历分词列表单词“种类”,用 l i s t . c o u n t ( w o r d ) list.count(word) list.count(word)方法来统计词频数据,词频统计数据结构可以列表 l i s t list list、元组 t u p l e tuple tuple、字典 d i c t dict dict,根据需要任意选择。
Python代码
def _count(self, words):
''' 统计词频 '''
words = [(i, words.count(i)) for i in set(words)] # 列表解析式统计词频。
words.sort(key=lambda x: x[0]) # 按单词排序。
words.sort(key=lambda x: x[-1], reverse=True) # 按词频排逆序。
return words
2. 分词
“预处理”(英文空格字符替换非字母字符)好了的输入文本,直接用
s
t
r
.
s
p
l
i
t
(
)
str.split()
str.split()默认缺省参数就可以拆分单词了。再一步剔除拆分出和空字符串’’,就算是完成“英文分词”。
- 返回结果可以自行定制:
a . a. a. 直接输出分词;
b . b. b. 统计词频;
c . c. c. 去除无实义单词;
d . d. d. c & b c\&b c&b,既去除无实义单词又统计词频。
我在这里的代码选择采用了第四种返回形式。我能想到的无实义单词列表如下:
I m e m y m a i n y o u y o u r h e r s s h e I\ me\ my\ main\ you\ your\ hers\ she I me my main you your hers she
h e r h e r s h e h i s h i m w e o u r o u r s her\ hers\ he\ his\ him\ we\ our\ ours her hers he his him we our ours
t h e y t h e i r t h e m i t s i t a a n m s d they\ their\ them\ its\ it\ a\ an\ m\ s\ d they their them its it a an m s d
d i d d o d o i n g d o e s d o n e c a n w o u l d did\ do\ doing\ does\ done\ can\ would did do doing does done can would
a m i s w a s a r e w e r e b e h a v e h a s am\ is\ was\ are\ were\ be\ have\ has am is was are were be have has
o f t e n a l w a y s t o t o o v e r y m a n y a n y often\ always\ to\ too\ very\ many\ any often always to too very many any
i n o n w i t h a t o f u p d o w n g o g o e s in\ on\ with\ at\ of\ up\ down\ go\ goes in on with at of up down go goes
w e n t f o r a b o u t n o w i f b u t r e f r o m went\ for\ about\ now\ if\ but\ re\ from went for about now if but re from
t h e t h e r e t h i s t h a t t h a n w h e n w h a t the\ there\ this\ that\ than\ when\ what the there this that than when what
w h e r e w h o w h y s o a s y e s n o n o t where\ who\ why\ so\ as\ yes\ no\ not where who why so as yes no not
j i o n o r a n d b y b u t jion\ or\ and\ by\ but jion or and by but
Python代码
def split(self):
''' 分词 '''
nowords = ('I', 'me', 'my', 'main', 'you', 'your', 'hers', 'she', 'her', 'hers', 'he', 'his', 'him', 'we', 'our', 'ours', 'they', 'their', 'them', 'its', 'it', 'a', 'an', 'm', 's', 'd', 'did', 'do', 'doing', 'does', 'done', 'can', 'would', 'am', 'is', 'was', 'are', 'were', 'be', 'have', 'has', 'often', 'always', 'to', 'too', 'very', 'many', 'any', 'in', 'on', 'with', 'at', 'of', 'up', 'down', 'go', 'goes', 'went', 'for', 'about', 'now', 'if', 'but', 're','from', 'the', 'there', 'this', 'that', 'than', 'when', 'what', 'where', 'who', 'why', 'so', 'as', 'yes', 'no', 'not', 'jion', 'or', 'and', 'by', 'but')
nowords = list(nowords) + [i.title() for i in nowords]
#input(nowords) # 校验无效单词列表。
words = [i for i in self._isletter().split() if i and i not in nowords] # 去除空格和无效单词。
#print(words) # 打印分词列表。
return self._count(words)
3、完整源码(Python)
(源码较长,点此跳过源码)
#!/sur/bin/nve python
# coding: utf-8
'''
英文分词
'''
class EnSplit:
def __init__(self, text):
self.words = text
def _isletter(self):
''' 剔除非字母字符 '''
lowers = ''.join(chr(i) for i in range(ord('a'), ord('z')+1)) # 生成26个小写字母字符串。
letters = tuple(lowers+lowers.upper())
#input(letters) # 校验字母列表。
words = [i if i in letters else ' ' for i in self.words] # 把非字母替换成英文空格字符。
return ''.join(words)
def _count(self, words):
''' 统计词频 '''
words = [(i, words.count(i)) for i in set(words)] # 列表解析式统计词频。
words.sort(key=lambda x: x[0]) # 按单词排序。
words.sort(key=lambda x: x[-1], reverse=True) # 按词频排逆序。
return words
def split(self):
''' 分词 '''
nowords = ('I', 'me', 'my', 'main', 'you', 'your', 'hers', 'she', 'her', 'hers', 'he', 'his', 'him', 'we', 'our', 'ours', 'they', 'their', 'them', 'its', 'it', 'a', 'an', 'm', 's', 'd', 'did', 'do', 'doing', 'does', 'done', 'can', 'would', 'am', 'is', 'was', 'are', 'were', 'be', 'have', 'has', 'often', 'always', 'to', 'too', 'very', 'many', 'any', 'in', 'on', 'with', 'at', 'of', 'up', 'down', 'go', 'goes', 'went', 'for', 'about', 'now', 'if', 'but', 're','from', 'the', 'there', 'this', 'that', 'than', 'when', 'what', 'where', 'who', 'why', 'so', 'as', 'yes', 'no', 'not', 'jion', 'or', 'and', 'by', 'but')
nowords = list(nowords) + [i.title() for i in nowords]
#input(nowords) # 校验无效单词列表。
words = [i for i in self._isletter().split() if i and i not in nowords] # 去除空格和无效单词。
print(words) # 打印分词列表。
return self._count(words)
if __name__ == '__main__':
text = '''
I'm a old man. I love Python.
我是一个老男人,我爱Python。
'''
text = open('/sdcard/Documents/英文美文.txt').read()
en = EnSplit(text)
print('\n'.join([f"{i[0]}: {i[-1]}" for i in en.split()]))
上一篇: 正则表达式中的“回引用(回溯)”($Python$正则表达式中的“回引用(回溯)”——分组别名引用与序号引用的差异及正则表达式中的“P”关键字详情)
下一篇:
我的HOT博:
本次共计收集289篇博文笔记信息,总阅读量44.72w。数据采集于2023年12月11日 23:07:13,用时5分11.8秒。阅读量不小于4.0k的有17篇。
- ChatGPT国内镜像站初体验:聊天、Python代码生成等
地址:https://blog.csdn.net/m0_57158496/article/details/129035387
浏览阅读:6.2w
点赞:127 收藏:809 评论:71
(本篇笔记于2023-02-14 23:46:33首次发布,最后修改于2023-07-03 05:50:55)
- 让QQ群昵称色变的神奇代码
地址:https://blog.csdn.net/m0_57158496/article/details/122566500
浏览阅读:5.8w
点赞:24 收藏:86 评论:17
(本篇笔记于2022-01-18 19:15:08首次发布,最后修改于2022-01-20 07:56:47)
- Python列表(list)反序(降序)的7种实现方式
地址:https://blog.csdn.net/m0_57158496/article/details/128271700
浏览阅读:9.9k
点赞:5 收藏:30 评论:8
(本篇笔记于2022-12-11 23:54:15首次发布,最后修改于2023-03-20 18:13:55)
- pandas 数据类型之 DataFrame
地址:https://blog.csdn.net/m0_57158496/article/details/124525814
浏览阅读:9.4k
点赞:7 收藏:34
摘要:pandas 数据类型之 DataFrame_panda dataframe。
(本篇笔记于2022-05-01 13:20:17首次发布,最后修改于2022-05-08 08:46:13)
- 个人信息提取(字符串)
地址:https://blog.csdn.net/m0_57158496/article/details/124244618
浏览阅读:7.7k
摘要:个人信息提取(字符串)_python个人信息提取。
(本篇笔记于2022-04-18 11:07:12首次发布,最后修改于2022-04-20 13:17:54)
- Python字符串居中显示
地址:https://blog.csdn.net/m0_57158496/article/details/122163023
浏览阅读:7.2k
评论:1
- 罗马数字转换器|罗马数字生成器
地址:https://blog.csdn.net/m0_57158496/article/details/122592047
浏览阅读:7.2k
(本篇笔记于2022-01-19 23:26:42首次发布,最后修改于2022-01-21 18:37:46)
- 斐波那契数列的递归实现和for实现
地址:https://blog.csdn.net/m0_57158496/article/details/122355295
浏览阅读:5.6k
点赞:4 收藏:2 评论:8
- 回车符、换行符和回车换行符
地址:https://blog.csdn.net/m0_57158496/article/details/123109488
浏览阅读:5.5k
点赞:2 收藏:3
摘要:回车符、换行符和回车换行符_命令行回车符。
(本篇笔记于2022-02-24 13:10:02首次发布,最后修改于2022-02-25 20:07:40)
- python清屏
地址:https://blog.csdn.net/m0_57158496/article/details/120762101
浏览阅读:5.3k
- 练习:字符串统计(坑:f‘string‘报错)
地址:https://blog.csdn.net/m0_57158496/article/details/121723096
浏览阅读:5.1k
- 练习:尼姆游戏(聪明版/傻瓜式•人机对战)
地址:https://blog.csdn.net/m0_57158496/article/details/121645399
浏览阅读:5.1k
点赞:14 收藏:44
- 我的 Python.color() (Python 色彩打印控制)
地址:https://blog.csdn.net/m0_57158496/article/details/123194259
浏览阅读:4.6k
点赞:2 收藏:8
摘要:我的 Python.color() (Python 色彩打印控制)_python color。
(本篇笔记于2022-02-28 22:46:21首次发布,最后修改于2022-03-03 10:30:03)
- 练习:生成100个随机正整数
地址:https://blog.csdn.net/m0_57158496/article/details/122558220
浏览阅读:4.6k
(本篇笔记于2022-01-18 13:31:36首次发布,最后修改于2022-01-20 07:58:12)
- 密码强度检测器
地址:https://blog.csdn.net/m0_57158496/article/details/121739694
浏览阅读:4.4k
(本篇笔记于2021-12-06 09:08:25首次发布,最后修改于2022-11-27 09:39:39)
- 罗马数字转换器(用罗马数字构造元素的值取模实现)
地址:https://blog.csdn.net/m0_57158496/article/details/122608526
浏览阅读:4.2k
(本篇笔记于2022-01-20 19:38:12首次发布,最后修改于2022-01-21 18:32:02)
- 练习:班里有人和我同生日难吗?(概率probability、蒙特卡洛随机模拟法)
地址:https://blog.csdn.net/m0_57158496/article/details/124424935
浏览阅读:4.0k
摘要:班里有人和我同生日难吗?(概率probability、蒙特卡洛随机模拟法)_生日模拟问题,计算频率,并画出随着试验次数n的增大,频率和理论概率的 关系图。
(本篇笔记于2022-04-26 12:46:25首次发布,最后修改于2022-04-27 21:22:07)
截屏图片
(此文涉及ChatPT,曾被csdn多次下架,前几日又因新发笔记被误杀而落马。躺“未过审”还不如回收站,回收站还不如永久不见。😪值此年底清扫,果断移除。留此截图,以识“曾经”。2023-12-31)
精品文章:
- 好文力荐:齐伟书稿 《python 完全自学教程》 Free连载(已完稿并集结成书,还有PDF版本百度网盘永久分享,点击跳转免费🆓下载。)
- OPP三大特性:封装中的property
- 通过内置对象理解python'
- 正则表达式
- python中“*”的作用
- Python 完全自学手册
- 海象运算符
- Python中的 `!=`与`is not`不同
- 学习编程的正确方法
来源:老齐教室
◆ Python 入门指南【Python 3.6.3】
好文力荐:
- 全栈领域优质创作者——[寒佬](还是国内某高校学生)博文“非技术文—关于英语和如何正确的提问”,“英语”和“会提问”是编程学习的两大利器。
- 【8大编程语言的适用领域】先别着急选语言学编程,先看它们能干嘛
- 靠谱程序员的好习惯
- 大佬帅地的优质好文“函数功能、结束条件、函数等价式”三大要素让您认清递归
CSDN实用技巧博文: