语料库方法已经成为语言学、新闻传播学、教育学等人文社会科学研究领域不可或缺的重要研究手段。Python语言具有强大的语料数据处理能力且简单易学,很好适合人文社会科学研究者学习和使用。本书在著者多年教学和研究基础上编撰而成,是一本以人文社会科学研究者为主要读者对象、专门论述人文社会科学领域如何使用Python处理语料数据的著作。本书通过浅显语言和丰富实例,深入浅出介绍了常用语料数据处理方法。
目录
文科生的编程自白
章 引言 1
1.1 Python语言与语料库数据处理 1
1.2 安装Python 3
1.3 Python代码的编写和运行 5
1.4 PyCharm的安装和使用 6
1.5 “Hello world!” 8
1.6 本书结构 10
第2章 数值和字符串 13
2.1 数值 13
2.2 常用数值运算符 14
2.3 常用数值函数 16
2.4 数值计算示例 20
2.5 数值计算练习 24
2.6 字符串 25
2.7 字符串运算 28
2.8 字符串与数值的互换 29
2.9 常用字符串函数 29
2.10 练习 32
第3章 条件与循环 33
3.1 条件判断 33
3.2 while循环 39
3.3 for in循环 39
3.4 读写单个文本 41
3.5 练习 44
第4章 列表和元组 46
4.1 列表 46
4.2 列表与字符串的相互转换 47
4.3 常用列表函数 49
4.4 列表相关文本处理实例 56
4.5 元组 59
4.6 练习 60
第5章 正则表达式 62
5.1 正则表达式的概念 62
5.2 普通字符 64
5.3 元字符 64
5.4 匹配零个或多个字符 66
5.5 分组 72
5.6 元字符的转义 74
5.7 换行符、回车符、制表符 77
5.8 正则表达式相关实例 77
5.9 练习 89
第6章 字典 90
6.1 字典的概念 90
6.2 常用字典函数 92
6.3 字典排序 95
6.4 字典相关实例 97
6.5 练习 102
第7章 语料库数据处理个案实例 103
7.1 分句和分词 103
7.2 词性赋码 107
7.3 词形还原 111
7.4 抽取词块 112
7.5 计算搭配强度 114
7.6 删除词表中的停用词 119
7.7 语料检索的KWIC实现 120
7.8 句子检索相关个案 122
7.9 实现Range软件功能 123
7.10 读取多个文本文件 133
7.11 多个文本文件批量改名 137
7.12 使用Stanford CoreNLP进行文本处理 139
第8章 语料库Unicode数据处理个案实例 153
8.1 中文分词 153
8.2 中文词性赋码 157
8.3 检索中文文本 160
8.4 英汉双语语料文本的合并与分割 162
附录A Python及命令行文本处理相关参考书籍 167
附录B 宾夕法尼亚大学树库词性赋码集 168