标点预测

最新推荐文章于 2024-06-22 09:44:55 发布

说好今夜不点烟

最新推荐文章于 2024-06-22 09:44:55 发布

阅读量641

点赞数

分类专栏： NLP自然语言处理文章标签：自然语言处理标点预测

本文链接：https://blog.csdn.net/dianyanxia/article/details/107499343

版权

NLP自然语言处理专栏收录该内容

20 篇文章 4 订阅

订阅专栏

shell上:
0表示标准输入
1表示标准输出
2表示标准错误输出
> 默认为标准输出重定向，与 1> 相同
2>&1 意思是把标准错误输出重定向到标准输出.
&>file 意思是把标准输出和标准错误输出都重定向到文件file中

punctuation_vocabulary = data.iterable_to_dict(data.PUNCTUATION_VOCABULARY)

data.PUNCTUATION_VOCABULARY怎么来的？

https://blog.csdn.net/hjimce/article/details/46806923

imatrix（int类型的矩阵）

preprogress中

step1是将 ‘ （）等包含此类括号的语句删除。 留疑问

https://www.656463.com/wenda/synltkzfyzjxbj_566

法语进行nltk分词

import nltk
from nltk.tokenize import WhitespaceTokenizer
from nltk.tokenize import SpaceTokenizer
from nltk.tokenize import RegexpTokenizer
data = "Vous êtes au volant d'une voiture et vous roulez à vitesse"
#wst = WhitespaceTokenizer()
#tokenizer = RegexpTokenizer('\s+', gaps=True)
token=WhitespaceTokenizer().tokenize(data)
print token

theano的共享变量等

https://blog.csdn.net/hjimce/article/details/46806923

困惑度：

https://blog.csdn.net/blmoistawinde/article/details/104966127

https://zhuanlan.zhihu.com/p/44107044

Linux 中的权限

https://blog.csdn.net/dengjili/article/details/90735669

https://blog.51cto.com/zhaoyuqiang/1214718

tmux使用教程

https://zhuanlan.zhihu.com/p/98384704

https://www.ruanyifeng.com/blog/2019/10/tmux.html

python中yield的用法详解

https://blog.csdn.net/mieleizhi0522/article/details/82142856/

Shell重定向＆>file、2>&1、1>&2的区别https://blog.csdn.net/rockstar541/article/details/79239029

linux中创建文件和文件夹

https://www.cnblogs.com/xzpin/p/10296580.html

linux .gz文件解压缩命令的简单使用

https://blog.csdn.net/zdx1515888659/article/details/82841100

[根据词频排序]使用operator.itemgetter(1)对dict中的value进行排序

https://www.jianshu.com/p/3ae2cbf204aa

Python中operator.itemgetter()的用法

https://blog.csdn.net/weixin_37922873/article/details/81210032

python中利用jieba库统计词频，counts[word] = counts.get(word,0)+1的使用

https://blog.csdn.net/LLDDDS/article/details/88650690

fnmatch模块的使用

https://blog.csdn.net/kellyseeme/article/details/51284494

theano.function

https://blog.csdn.net/akadiao/article/details/78298481

07-23对news2008进行test

效果如下

PUNCTUATION PRECISION RECALL F-SCORE
,COMMA 80.0 48.8 60.6
.PERIOD 96.9 98.9 97.9
?QUESTIONMARK 57.6 40.2 47.4
!EXCLAMATIONMARK 0.0 0.0 nan
:COLON nan nan nan
;SEMICOLON nan nan nan
-DASH nan nan nan
----------------------------------------------
Overall 90.8 74.5 81.9
Err: 3.7%
SER: 30.9%
接下来进行整合数据

Linux下执行程序出现 Text file busy 时的解决办法

https://blog.csdn.net/zhangxiaoyang0/article/details/82500924

linux下文件的复制、移动与删除

https://www.cnblogs.com/aiyr/p/7395738.html

linux一次性解压多个.gz或者.tar.gz文件

for gz in *.gz; do gunzip $gz; done

for tar in *.tar.gz; do tar xvf $tar; done

https://www.cnblogs.com/z00377750/p/9202558.html

Linux多文件按行拼接整合命令paste

-d<分隔符> 指定分隔符，若未使用该参数则默认制表符分隔
-s 不使用平行的行目输出模式，而是每个文件占用一行

[post@lm fr_new]$ paste -d '\n' -s test1.txt test2.txt
1 2 3
a b c
d e f
4 5 6
q q q
添加了'\n'

$ paste -s username usermail userjob  
张三 李四 王五  
zs@linux.com ls@linux.com ww@linux.com  
程序员 销售 财务

https://www.cnblogs.com/bymo/p/12193230.html

Linux下执行程序出现 Text file busy 时的解决办法

https://blog.csdn.net/zhangxiaoyang0/article/details/82500924

使用 fuser 命令查看程序文件被哪个进程占用，然后用 kill 命令杀死该进程

在1w条测试结果如下

----------------------------------------------
PUNCTUATION PRECISION RECALL F-SCORE
,COMMA 92.2 81.1 86.3
.PERIOD 96.0 98.5 97.2
?QUESTIONMARK 76.1 85.9 80.7
!EXCLAMATIONMARK 64.8 28.8 39.9
:COLON nan nan nan
;SEMICOLON nan nan nan
-DASH nan nan nan
----------------------------------------------
Overall 93.8 89.8 91.7
Err: 1.63%
SER: 13.5%

64隐层fr3model的测试结果如下：

124隐层fr2model测试结果如下：

tmux分屏操作快捷键：

https://www.cnblogs.com/JackGao-CS/p/7325562.html

Liux对某个文件进行按行截取：

sed -n '100,10000p' news.2008.fr.shuffled >> news.test.data
100行-10000行。

法语中第3w行开始 vocabulary 对于-拼接词会添加很多。暂定截取3w词汇表。做训练

fr第三版 train_fr2文件夹下做好序号化的训练数据。1.28亿行

测试128 输出日志fr2.log

测试64 输出日志fr3.log

在model.py中使用了GRU模型里面有pre_embedding的选项目前用的是没搞定似乎是词袋？

label 是原始数据 原始数据

label.case 是全部变小写模拟的评测数据

lable.case2 是放入model中恢复的特定人名地名后数据

lable.case3 是detruecase将首字母大写所有都恢复后的数据 预测数据

将原始数据和预测数据进行评测

处理大小写恢复模型的代码

import codecs
import sys
import codecs
import re
regex="("
input_file = "news.de.model"
output_file = "news.de.model.out"
def open(input_file,output_file):
    skip = 0
    with codecs.open(input_file, "r", "utf-8") as resultFile:
        with codecs.open(output_file, "w", "utf-8") as file:
            for newline in resultFile:
                index = indexstr(newline,regex)  #查找是否有多组单词的newline 作后续处理 保留
                if len(index) == 1:
                  if newline[0].islower():  #将小写的单词过滤
                      skip += 1;
                      print(newline) #查看过滤掉单词
                      continue
                  else:   #大写的单词进行输出
                      file.writelines(newline[:index[0]-1]+"\n")
                else:
                    preWord  = newline[:index[0]-1]  #概率值较大的单词
                    # postWord = newline[index[0]+1:-1] # #概率值较小的单词
                    if preWord[0].isupper():
                        file.writelines(preWord+"\n")
                    else:
                        skip += 1;
                        print(newline)#查看过滤掉单词
                        continue




def indexstr(str1,str2):
    #查找指定字符串str1包含指定子字符串str2的全部位置，以列表形式返回
    lenth2=len(str2)
    lenth1=len(str1)
    indexstr2=[]
    i=0
    while str2 in str1[i:]:
        indextmp = str1.index(str2, i, lenth1)
        indexstr2.append(indextmp)
        i = (indextmp + lenth2)
    return indexstr2
if __name__ == '__main__':
    open(input_file,output_file)

训练大小写德语模型时，

拿29G全部数据首先进行了tok处理，然后再放入train-case.perl中进行训练model

再对model中进行非大写的处理。

Python编码错误的解决办法SyntaxError: Non-ASCII character '\xe7' in file

https://blog.csdn.net/oCanta/article/details/85699766?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf

----------------------------------------------
PUNCTUATION PRECISION RECALL F-SCORE
,COMMA 91.7 60.6 73.0
.PERIOD 98.2 98.1 98.1
?QUESTIONMARK 76.9 78.8 77.8
!EXCLAMATIONMARK 30.5 10.0 15.1
:COLON nan nan nan
;SEMICOLON nan nan nan
-DASH nan nan nan
----------------------------------------------
Overall 94.7 76.6 84.7
法语第四版fr4model评测数据

打包成tar.gz格式压缩包

 tar -zcvf renwolesshel.tar.gz /renwolesshel   后面跟的是要打包的文件 可以多列进行

解压tar.gz格式压缩包

 tar zxvf renwolesshel.tar.gz

将文件file_00.txt、file_01.txt、file_02.txt、file_03.txt压缩为文件file.tar.gz

tar -cvf file.tar.gz file_00.txt file_01.txt file_02.txt file_03.txt

KMP的字符匹配算法：

https://www.cnblogs.com/imzhr/p/9613963.html

KMP算法详解及其Java实现

linux去掉windows下文件中的\r

https://blog.csdn.net/lovelovelovelovelo/article/details/79239068

最常用的方法：

在终端下敲命令： $ dos2unix filename

直接转换成unix格式，就OK了！～

求个正则判断字符串是否日文

var chinese = "你好";

var japanese = "にほんご";

var japanese2 = "你好こんにちは你好";

var reg = /[\u0800-\u4e00]+/

console.log(reg.test(chinese));//false

console.log(reg.test(japanese));//true

console.log(japanese2.match(reg)[0]);//こんにちは

对法语中复合词-替换

法语复合词替换大小写模型 fr2

写python代码时出现’ascii’ codec can’t decode byte 0xef in position 0:ordinal not in range(128)的错误。

http://blog.sina.com.cn/s/blog_6c39196501013s5b.html

解决办法：在出现问题的页加上如下三行即可：

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

对法语大小写模型进行了处理fr2

truecase-model.fr2.out

说好今夜不点烟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
标点预测

shell上:0表示标准输入1表示标准输出2表示标准错误输出> 默认为标准输出重定向，与 1> 相同2>&1 意思是把标准错误输出重定向到标准输出.&>file 意思是把标准输出和标准错误输出都重定向到文件file中punctuation_vocabulary = data.iterable_to_dict(data.PUNCTUATION_VOCABULARY)data.PUNCTUATION_VOCABULARY...
复制链接

扫一扫