开发笔记
2019年5月4日 10:39:35 start
phpstudy 自带了 mysql front,可视化编辑数据表的工具。
苏老师的mac要布置sql具体怎么操作需要之后考虑。
通过测试实现了测试数据的输入。实际操作要将txt文本中的内容批量导入,可能会遇到编码问题。
看是否有文章题目
2019年5月4日 10:39:35 end
2019年5月4日 00:03:48 start
分词的方法想了,有两种。
- 第一种是先跟数据做词性标注,然后把结果存储在数据库里。
遇到的问题,建表时数据结构不知如何规划。目前已经有每个单词一行的思路。
用表格表示如下
id | 班级号 | 作者序号 | 作文次数 | 文件名 | 句子序号 | 句子 | 词序号 | 词 | 读音 | 大分类-中分类-小分类 | ||
1 | 01 | 01 | 101-01 | 1 | 私の家族ほ3人です,父と母と兄とわたしです | 1 | 私 | ワタシ | 名詞-代名詞-一般 | |||
第二种是不给数据做词性标注(想要否掉)。在需要的时候,输入句子,调用mecab,得到
该句子带词性的 二维数组。第一维是按句子顺序存储单词,
第二维是 按照 单词 和 索引 存储该单词的 大词性 小词性等等。
遇到的问题: 按词性检索时 需要将全部的句子读入、分词、匹配词性。
2019年5月4日 00:03:48 end
2019年5月2日 21:34:41
2019年4月15日 13:32:31 start
批量修改文件名的bat编写成功。
2019年4月15日 13:32:31 end