python数据处理的库-基于Python的语料库数据处理

语料库方法已经成为语言学、新闻传播学、教育学等人文社会科学研究领域不可或缺的重要研究手段。Python语言具有强大的语料数据处理能力且简单易学,很好适合人文社会科学研究者学习和使用。本书在著者多年教学和研究基础上编撰而成,是一本以人文社会科学研究者为主要读者对象、专门论述人文社会科学领域如何使用Python处理语料数据的著作。本书通过浅显语言和丰富实例,深入浅出介绍了常用语料数据处理方法。

目录

文科生的编程自白

章 引言 1

1.1 Python语言与语料库数据处理 1

1.2 安装Python 3

1.3 Python代码的编写和运行 5

1.4 PyCharm的安装和使用 6

1.5 “Hello world!” 8

1.6 本书结构 10

第2章 数值和字符串 13

2.1 数值 13

2.2 常用数值运算符 14

2.3 常用数值函数 16

2.4 数值计算示例 20

2.5 数值计算练习 24

2.6 字符串 25

2.7 字符串运算 28

2.8 字符串与数值的互换 29

2.9 常用字符串函数 29

2.10 练习 32

第3章 条件与循环 33

3.1 条件判断 33

3.2 while循环 39

3.3 for in循环 39

3.4 读写单个文本 41

3.5 练习 44

第4章 列表和元组 46

4.1 列表 46

4.2 列表与字符串的相互转换 47

4.3 常用列表函数 49

4.4 列表相关文本处理实例 56

4.5 元组 59

4.6 练习 60

第5章 正则表达式 62

5.1 正则表达式的概念 62

5.2 普通字符 64

5.3 元字符 64

5.4 匹配零个或多个字符 66

5.5 分组 72

5.6 元字符的转义 74

5.7 换行符、回车符、制表符 77

5.8 正则表达式相关实例 77

5.9 练习 89

第6章 字典 90

6.1 字典的概念 90

6.2 常用字典函数 92

6.3 字典排序 95

6.4 字典相关实例 97

6.5 练习 102

第7章 语料库数据处理个案实例 103

7.1 分句和分词 103

7.2 词性赋码 107

7.3 词形还原 111

7.4 抽取词块 112

7.5 计算搭配强度 114

7.6 删除词表中的停用词 119

7.7 语料检索的KWIC实现 120

7.8 句子检索相关个案 122

7.9 实现Range软件功能 123

7.10 读取多个文本文件 133

7.11 多个文本文件批量改名 137

7.12 使用Stanford CoreNLP进行文本处理 139

第8章 语料库Unicode数据处理个案实例 153

8.1 中文分词 153

8.2 中文词性赋码 157

8.3 检索中文文本 160

8.4 英汉双语语料文本的合并与分割 162

附录A Python及命令行文本处理相关参考书籍 167

附录B 宾夕法尼亚大学树库词性赋码集 168

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值