标点预测

 

shell上:
0表示标准输入
1表示标准输出
2表示标准错误输出
> 默认为标准输出重定向,与 1> 相同
2>&1 意思是把 标准错误输出 重定向到 标准输出.
&>file 意思是把 标准输出 和 标准错误输出 都重定向到文件file中

 

 

punctuation_vocabulary = data.iterable_to_dict(data.PUNCTUATION_VOCABULARY)

data.PUNCTUATION_VOCABULARY怎么来的?

 

 

https://blog.csdn.net/hjimce/article/details/46806923

imatrix(int类型的矩阵)

 

 

preprogress中

step1是将 ‘ ()等包含此类括号的语句删除。  留疑问

 

 

https://www.656463.com/wenda/synltkzfyzjxbj_566

法语进行nltk分词

import nltk
from nltk.tokenize import WhitespaceTokenizer
from nltk.tokenize import SpaceTokenizer
from nltk.tokenize import RegexpTokenizer
data = "Vous êtes au volant d'une voiture et vous roulez à vitesse"
#wst = WhitespaceTokenizer()
#tokenizer = RegexpTokenizer('\s+', gaps=True)
token=WhitespaceTokenizer().tokenize(data)
print token

 

theano的共享变量等

https://blog.csdn.net/hjimce/article/details/46806923

 

困惑度:

https://blog.csdn.net/blmoistawinde/article/details/104966127

https://zhuanlan.zhihu.com/p/44107044

Linux 中的权限

https://blog.csdn.net/dengjili/article/details/90735669

https://blog.51cto.com/zhaoyuqiang/1214718

tmux使用教程

https://zhuanlan.zhihu.com/p/98384704

https://www.ruanyifeng.com/blog/2019/10/tmux.html

python中yield的用法详解

https://blog.csdn.net/mieleizhi0522/article/details/82142856/

 

Shell重定向&>file、2>&1、1>&2的区别https://blog.csdn.net/rockstar541/article/details/79239029

 

linux中创建文件和文件夹

https://www.cnblogs.com/xzpin/p/10296580.html

linux .gz文件 解压缩命令的简单使用

https://blog.csdn.net/zdx1515888659/article/details/82841100

[根据词频排序]使用operator.itemgetter(1)对dict中的value进行排序

https://www.jianshu.com/p/3ae2cbf204aa

Python中operator.itemgetter()的用法

https://blog.csdn.net/weixin_37922873/article/details/81210032

python中利用jieba库统计词频,counts[word] = counts.get(word,0)+1的使用

https://blog.csdn.net/LLDDDS/article/details/88650690

fnmatch模块的使用

https://blog.csdn.net/kellyseeme/article/details/51284494

theano.function

https://blog.csdn.net/akadiao/article/details/78298481

 

 

07-23对news2008进行test

效果如下

PUNCTUATION      PRECISION RECALL    F-SCORE
,COMMA           80.0      48.8      60.6
.PERIOD          96.9      98.9      97.9
?QUESTIONMARK    57.6      40.2      47.4
!EXCLAMATIONMARK 0.0       0.0       nan
:COLON           nan       nan       nan
;SEMICOLON       nan       nan       nan
-DASH            nan       nan       nan
----------------------------------------------
Overall          90.8      74.5      81.9
Err: 3.7%
SER: 30.9%
接下来进行整合数据

 

Linux下执行程序出现 Text file busy 时的解决办法

https://blog.csdn.net/zhangxiaoyang0/article/details/82500924

 

 

 

linux下文件的复制、移动与删除

https://www.cnblogs.com/aiyr/p/7395738.html

linux一次性解压多个.gz或者.tar.gz文件

for gz in *.gz; do gunzip $gz; done

for tar in *.tar.gz; do tar xvf $tar; done

https://www.cnblogs.com/z00377750/p/9202558.html

 

Linux多文件按行拼接整合命令paste

-d<分隔符> 指定分隔符,若未使用该参数则默认制表符分隔
-s 不使用平行的行目输出模式,而是每个文件占用一行

 

[post@lm fr_new]$ paste -d '\n' -s test1.txt test2.txt
1 2 3
a b c
d e f
4 5 6
q q q
添加了'\n'

$ paste -s username usermail userjob  
张三 李四 王五  
zs@linux.com ls@linux.com ww@linux.com  
程序员 销售 财务 

https://www.cnblogs.com/bymo/p/12193230.html

 

Linux下执行程序出现 Text file busy 时的解决办法

https://blog.csdn.net/zhangxiaoyang0/article/details/82500924

使用 fuser 命令查看程序文件被哪个进程占用,然后用 kill 命令杀死该进程

 

 

在1w条测试结果如下

----------------------------------------------
PUNCTUATION      PRECISION RECALL    F-SCORE
,COMMA           92.2      81.1      86.3
.PERIOD          96.0      98.5      97.2
?QUESTIONMARK    76.1      85.9      80.7
!EXCLAMATIONMARK 64.8      28.8      39.9
:COLON           nan       nan       nan
;SEMICOLON       nan       nan       nan
-DASH            nan       nan       nan
----------------------------------------------
Overall          93.8      89.8      91.7
Err: 1.63%
SER: 13.5%

 

64隐层fr3model的测试结果如下:

124隐层fr2model测试结果如下:

 

tmux分屏操作快捷键:

https://www.cnblogs.com/JackGao-CS/p/7325562.html

 

Liux对某个文件进行按行截取:

sed -n '100,10000p' news.2008.fr.shuffled >> news.test.data
100行-10000行。

 


法语中第3w行开始 vocabulary 对于-拼接词会添加很多。暂定截取3w词汇表。做训练

fr第三版 train_fr2文件夹下做好序号化的训练数据。1.28亿行   

 

 

 

测试128 输出日志fr2.log 

 

测试64 输出日志fr3.log 

 

 

在model.py中 使用了GRU模型 里面有pre_embedding的选项 目前用的是 没搞定 似乎是词袋?

 

label 是原始数据   原始数据

label.case 是全部变小写 模拟的评测数据 

lable.case2 是放入model中恢复的特定人名地名 后数据

lable.case3 是detruecase将首字母大写 所有都恢复后的数据  预测数据

将 原始数据 和预测数据进行评测

 

 

 

处理大小写恢复模型的代码

import codecs
import sys
import codecs
import re
regex="("
input_file = "news.de.model"
output_file = "news.de.model.out"
def open(input_file,output_file):
    skip = 0
    with codecs.open(input_file, "r", "utf-8") as resultFile:
        with codecs.open(output_file, "w", "utf-8") as file:
            for newline in resultFile:
                index = indexstr(newline,regex)  #查找是否有多组单词的newline 作后续处理 保留
                if len(index) == 1:
                  if newline[0].islower():  #将小写的单词过滤
                      skip += 1;
                      print(newline) #查看过滤掉单词
                      continue
                  else:   #大写的单词进行输出
                      file.writelines(newline[:index[0]-1]+"\n")
                else:
                    preWord  = newline[:index[0]-1]  #概率值较大的单词
                    # postWord = newline[index[0]+1:-1] # #概率值较小的单词
                    if preWord[0].isupper():
                        file.writelines(preWord+"\n")
                    else:
                        skip += 1;
                        print(newline)#查看过滤掉单词
                        continue




def indexstr(str1,str2):
    #查找指定字符串str1包含指定子字符串str2的全部位置,以列表形式返回
    lenth2=len(str2)
    lenth1=len(str1)
    indexstr2=[]
    i=0
    while str2 in str1[i:]:
        indextmp = str1.index(str2, i, lenth1)
        indexstr2.append(indextmp)
        i = (indextmp + lenth2)
    return indexstr2
if __name__ == '__main__':
    open(input_file,output_file)

 

训练大小写德语模型时 ,

拿29G全部数据首先进行了tok处理 ,然后再放入train-case.perl中进行训练model

再对model中进行非大写的处理。

 

 

Python编码错误的解决办法SyntaxError: Non-ASCII character '\xe7' in file

https://blog.csdn.net/oCanta/article/details/85699766?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.add_param_isCf

 

 

----------------------------------------------
PUNCTUATION      PRECISION RECALL    F-SCORE
,COMMA           91.7      60.6      73.0
.PERIOD          98.2      98.1      98.1
?QUESTIONMARK    76.9      78.8      77.8
!EXCLAMATIONMARK 30.5      10.0      15.1
:COLON           nan       nan       nan
;SEMICOLON       nan       nan       nan
-DASH            nan       nan       nan
----------------------------------------------
Overall          94.7      76.6      84.7
法语第四版fr4model评测数据

 

 

打包成tar.gz格式压缩包

 tar -zcvf renwolesshel.tar.gz /renwolesshel   后面跟的是要打包的文件 可以多列进行

解压tar.gz格式压缩包

 tar zxvf renwolesshel.tar.gz

 

将文件file_00.txt、file_01.txt、file_02.txt、file_03.txt压缩为文件file.tar.gz

tar -cvf file.tar.gz file_00.txt file_01.txt file_02.txt file_03.txt

 

KMP的字符匹配算法:

https://www.cnblogs.com/imzhr/p/9613963.html

KMP算法详解及其Java实现

 

linux去掉windows下文件中的\r

https://blog.csdn.net/lovelovelovelovelo/article/details/79239068

最常用的方法:

在终端下敲命令: $ dos2unix filename

直接转换成unix格式,就OK了!~

 

求个正则判断字符串是否日文

var chinese = "你好";

var japanese = "にほんご";

var japanese2 = "你好こんにちは你好";

var reg = /[\u0800-\u4e00]+/

console.log(reg.test(chinese));//false

console.log(reg.test(japanese));//true

console.log(japanese2.match(reg)[0]);//こんにちは

 

对法语中复合词-替换  

法语复合词替换大小写模型 fr2

写python代码时出现’ascii’ codec can’t decode byte 0xef in position 0:ordinal not in range(128)的错误。

http://blog.sina.com.cn/s/blog_6c39196501013s5b.html

解决办法:在出现问题的页加上如下三行即可:

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

 

对法语大小写模型进行了处理fr2

truecase-model.fr2.out   

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值