shell上:
0表示标准输入
1表示标准输出
2表示标准错误输出
> 默认为标准输出重定向,与 1> 相同
2>&1 意思是把 标准错误输出 重定向到 标准输出.
&>file 意思是把 标准输出 和 标准错误输出 都重定向到文件file中
punctuation_vocabulary = data.iterable_to_dict(data.PUNCTUATION_VOCABULARY)
data.PUNCTUATION_VOCABULARY怎么来的?
https://blog.csdn.net/hjimce/article/details/46806923
imatrix(int类型的矩阵)
preprogress中
step1是将 ‘ ()等包含此类括号的语句删除。 留疑问
https://www.656463.com/wenda/synltkzfyzjxbj_566
法语进行nltk分词
import nltk
from nltk.tokenize import WhitespaceTokenizer
from nltk.tokenize import SpaceTokenizer
from nltk.tokenize import RegexpTokenizer
data = "Vous êtes au volant d'une voiture et vous roulez à vitesse"
#wst = WhitespaceTokenizer()
#tokenizer = RegexpTokenizer('\s+', gaps=True)
token=WhitespaceTokenizer().tokenize(data)
print token
theano的共享变量等
https://blog.csdn.net/hjimce/article/details/46806923
困惑度:
https://blog.csdn.net/blmoistawinde/article/details/104966127
https://zhuanlan.zhihu.com/p/44107044
Linux 中的权限
https://blog.csdn.net/dengjili/article/details/90735669
https://blog.51cto.com/zhaoyuqiang/1214718
tmux使用教程
https://zhuanlan.zhihu.com/p/98384704
https://www.ruanyifeng.com/blog/2019/10/tmux.html
python中yield的用法详解
https://blog.csdn.net/mieleizhi0522/article/details/82142856/
Shell重定向&>file、2>&1、1>&2的区别https://blog.csdn.net/rockstar541/article/details/79239029
linux中创建文件和文件夹
https://www.cnblogs.com/xzpin/p/10296580.html
linux .gz文件 解压缩命令的简单使用
https://blog.csdn.net/zdx1515888659/article/details/82841100
[根据词频排序]使用operator.itemgetter(1)对dict中的value进行排序
https://www.jianshu.com/p/3ae2cbf204aa
Python中operator.itemgetter()的用法
https://blog.csdn.net/weixin_37922873/article/details/81210032
python中利用jieba库统计词频,counts[word] = counts.get(word,0)+1的使用
https://blog.csdn.net/LLDDDS/article/details/88650690
fnmatch模块的使用
https://blog.csdn.net/kellyseeme/article/details/51284494
theano.function
https://blog.csdn.net/akadiao/article/details/78298481
07-23对news2008进行test
效果如下
PUNCTUATION PRECISION RECALL F-SCORE
,COMMA 80.0 48.8 60.6
.PERIOD 96.9 98.9 97.9
?QUESTIONMARK 57.6 40.2 47.4
!EXCLAMATIONMARK 0.0 0.0 nan
:COLON nan nan nan
;SEMICOLON nan nan nan
-DASH nan nan nan
----------------------------------------------
Overall 90.8 74.5 81.9
Err: 3.7%
SER: 30.9%
接下来进行整合数据
Linux下执行程序出现 Text file busy 时的解决办法
https://blog.csdn.net/zhangxiaoyang0/article/details/82500924
linux下文件的复制、移动与删除
https://www.cnblogs.com/aiyr/p/7395738.html
linux一次性解压多个.gz或者.tar.gz文件
for gz in *.gz; do gunzip $gz; done
for tar in *.tar.gz; do tar xvf $tar; done
https://www.cnblogs.com/z00377750/p/9202558.html
Linux多文件按行拼接整合命令paste
-d<分隔符> 指定分隔符,若未使用该参数则默认制表符分隔
-s 不使用平行的行目输出模式,而是每个文件占用一行
[post@lm fr_new]$ paste -d '\n' -s test1.txt test2.txt
1 2 3
a b c
d e f
4 5 6
q q q
添加了'\n'
$ paste -s username usermail userjob
张三 李四 王五
zs@linux.com ls@linux.com ww@linux.com
程序员 销售 财务
https://www.cnblogs.com/bymo/p/12193230.html
Linux下执行程序出现 Text file busy 时的解决办法
https://blog.csdn.net/zhangxiaoyang0/article/details/82500924
使用 fuser
命令查看程序文件被哪个进程占用,然后用 kill 命令杀死该进程
在1w条测试结果如下
----------------------------------------------
PUNCTUATION PRECISION RECALL F-SCORE
,COMMA 92.2 81.1 86.3
.PERIOD 96.0 98.5 97.2
?QUESTIONMARK 76.1 85.9 80.7
!EXCLAMATIONMARK 64.8 28.8 39.9
:COLON nan nan nan
;SEMICOLON nan nan nan
-DASH nan nan nan
----------------------------------------------
Overall 93.8 89.8 91.7
Err: 1.63%
SER: 13.5%
64隐层fr3model的测试结果如下:
124隐层fr2model测试结果如下:
tmux分屏操作快捷键:
https://www.cnblogs.com/JackGao-CS/p/7325562.html
Liux对某个文件进行按行截取:
sed -n '100,10000p' news.2008.fr.shuffled >> news.test.data
100行-10000行。
法语中第3w行开始 vocabulary 对于-拼接词会添加很多。暂定截取3w词汇表。做训练
fr第三版 train_fr2文件夹下做好序号化的训练数据。1.28亿行
测试128 输出日志fr2.log
测试64 输出日志fr3.log
在model.py中 使用了GRU模型 里面有pre_embedding的选项 目前用的是 没搞定 似乎是词袋?
label 是原始数据 原始数据
label.case 是全部变小写 模拟的评测数据
lable.case2 是放入model中恢复的特定人名地名 后数据
lable.case3 是detruecase将首字母大写 所有都恢复后的数据 预测数据
将 原始数据 和预测数据进行评测
处理大小写恢复模型的代码
import codecs
import sys
import codecs
import re
regex="("
input_file = "news.de.model"
output_file = "news.de.model.out"
def open(input_file,output_file):
skip = 0
with codecs.open(input_file, "r", "utf-8") as resultFile:
with codecs.open(output_file, "w", "utf-8") as file:
for newline in resultFile:
index = indexstr(newline,regex) #查找是否有多组单词的newline 作后续处理 保留
if len(index) == 1:
if newline[0].islower(): #将小写的单词过滤
skip += 1;
print(newline) #查看过滤掉单词
continue
else: #大写的单词进行输出
file.writelines(newline[:index[0]-1]+"\n")
else:
preWord = newline[:index[0]-1] #概率值较大的单词
# postWord = newline[index[0]+1:-1] # #概率值较小的单词
if preWord[0].isupper():
file.writelines(preWord+"\n")
else:
skip += 1;
print(newline)#查看过滤掉单词
continue
def indexstr(str1,str2):
#查找指定字符串str1包含指定子字符串str2的全部位置,以列表形式返回
lenth2=len(str2)
lenth1=len(str1)
indexstr2=[]
i=0
while str2 in str1[i:]:
indextmp = str1.index(str2, i, lenth1)
indexstr2.append(indextmp)
i = (indextmp + lenth2)
return indexstr2
if __name__ == '__main__':
open(input_file,output_file)
训练大小写德语模型时 ,
拿29G全部数据首先进行了tok处理 ,然后再放入train-case.perl中进行训练model
再对model中进行非大写的处理。
Python编码错误的解决办法SyntaxError: Non-ASCII character '\xe7' in file
----------------------------------------------
PUNCTUATION PRECISION RECALL F-SCORE
,COMMA 91.7 60.6 73.0
.PERIOD 98.2 98.1 98.1
?QUESTIONMARK 76.9 78.8 77.8
!EXCLAMATIONMARK 30.5 10.0 15.1
:COLON nan nan nan
;SEMICOLON nan nan nan
-DASH nan nan nan
----------------------------------------------
Overall 94.7 76.6 84.7
法语第四版fr4model评测数据
打包成tar.gz格式压缩包
tar -zcvf renwolesshel.tar.gz /renwolesshel 后面跟的是要打包的文件 可以多列进行
解压tar.gz格式压缩包
tar zxvf renwolesshel.tar.gz
将文件file_00.txt、file_01.txt、file_02.txt、file_03.txt压缩为文件file.tar.gz
tar -cvf file.tar.gz file_00.txt file_01.txt file_02.txt file_03.txt
KMP的字符匹配算法:
https://www.cnblogs.com/imzhr/p/9613963.html
KMP算法详解及其Java实现
linux去掉windows下文件中的\r
https://blog.csdn.net/lovelovelovelovelo/article/details/79239068
最常用的方法:
在终端下敲命令: $ dos2unix filename
直接转换成unix格式,就OK了!~
求个正则判断字符串是否日文
var chinese = "你好";
var japanese = "にほんご";
var japanese2 = "你好こんにちは你好";
var reg = /[\u0800-\u4e00]+/
console.log(reg.test(chinese));//false
console.log(reg.test(japanese));//true
console.log(japanese2.match(reg)[0]);//こんにちは
对法语中复合词-替换
法语复合词替换大小写模型 fr2
写python代码时出现’ascii’ codec can’t decode byte 0xef in position 0:ordinal not in range(128)的错误。
http://blog.sina.com.cn/s/blog_6c39196501013s5b.html
解决办法:在出现问题的页加上如下三行即可:
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
对法语大小写模型进行了处理fr2
truecase-model.fr2.out