自然语言处理
luoganttcc
微信:luogantt
展开
-
ubuntu打包成iso镜像
https://zhuanlan.zhihu.com/p/349586567https://github.com/wenet-e2e/wenethttps://github.com/alphacep/vosk-apihttps://alphacephei.com/vosk/原创 2023-05-17 19:12:18 · 604 阅读 · 0 评论 -
语音识别项目
https://zhuanlan.zhihu.com/p/349586567https://github.com/wenet-e2e/wenethttps://github.com/alphacep/vosk-apihttps://alphacephei.com/vosk/原创 2023-04-27 17:04:29 · 324 阅读 · 0 评论 -
【Python】最全中文停用词表整理(1893个)(转载)
!"#$%&'()*+,---................................/.一.数.日///0123456789:://::;<=>>>?@ALex[\]^_`expsubsup|}~~~~~·××××ΔΨγμφφ.В——————‘’’‘“””,…………………………………………………………③′转载 2021-07-29 18:35:20 · 1757 阅读 · 0 评论 -
numpy.tile 阵列
b = np.array([[1, 2], [3, 4]])np.tile(b, 2)array([[1, 2, 1, 2, 1, 2], [3, 4, 3, 4, 3, 4], [1, 2, 1, 2, 1, 2], [3, 4, 3, 4, 3, 4]])原创 2020-07-30 17:24:01 · 142 阅读 · 0 评论 -
keras 文本分类模型
#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Wed Jul 29 20:21:28 2020@author: lg"""from __future__ import print_functionimport osimport sysimport numpy as npfrom keras.preprocessing.text import Tokenizerfrom keras.preprocessing.s转载 2020-07-30 14:26:18 · 305 阅读 · 0 评论 -
keras pad_sequences
pad_sequences 大白话的意思就是:空位补零import kerasfrom keras.preprocessing.text import Tokenizertokenizer = Tokenizer()# texttext = ["今天 北京 下 雨 了", "我 今天 加班"]# fit_on_texts 方法tokenizer.fit_on_texts(text)print(tokenizer.word_index)#{'今天': 1, '了': 2,原创 2020-07-30 13:53:54 · 916 阅读 · 0 评论 -
Keras 文本预处理 text sequence
预处理句子分割、ohe-hot:from keras.preprocessing import textfrom keras.preprocessing.text import Tokenizertokenizer = Tokenizer(num_words=4) #num_words:None或整数,个人理解就是对统计单词出现数量后选择次数多的前n个单词,后面的单词都不做处理。tokenizer.fit_on_texts(texts)print( tokenizer.word_index)转载 2020-07-30 12:20:10 · 265 阅读 · 0 评论 -
python find
Python find() 方法从字符串中找出某个子字符串第一个匹配项的索引位置,该方法与 index() 方法一样,只不过如果子字符串不在字符串中不会报异常,而是返回-1。find() 方法语法:S.find(sub[,start=0[,end=len(S)]])参数sub – 指定检索的子字符串S – 父字符串start – 可选参数,开始索引,默认为0。(可单独指定)end – 可选参数,结束索引,默认为字符串的长度。(不能单独指定)#!/usr/bin/python3 S1原创 2020-07-30 11:30:03 · 154 阅读 · 0 评论 -
keras 简单的文本分类
from keras.preprocessing.sequence import pad_sequencesfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import Flattenfrom keras.layers.embeddings import Embedding...转载 2020-03-11 15:35:50 · 234 阅读 · 0 评论 -
python提取字符串中的 中文 日文 韩文
import impimp.reload(sys) s=""" en: Regular expression is a powerful tool for manipulating text. zh: 汉语是世界上最优美的语言,正则表达式是一个很有用的工具 jp: 正規表現は非常に役に立つツールテキストを操作することです。 jp-char: あアいイうウえエおオ kr:정...原创 2019-09-17 15:11:43 · 5439 阅读 · 0 评论 -
使用不同的方法计算TF-IDF值
添加链接描述原创 2019-09-16 21:31:58 · 128 阅读 · 0 评论 -
nltk 文本预处理
分词from nltk import word_tokenizesentence = """3w.ναdΜāιι.com Provide you with a professional platform for the sale and purchase of virtual products for games. Welcome to settle in 3w.ναdΜāιι.com ...原创 2019-09-16 13:33:32 · 1141 阅读 · 0 评论 -
Python 中re.split()方法
import reline = 'aaa bbb ccc;ddd eee,fff'#单字符切割re.split(r';',line)['aaa bbb ccc', 'ddd eee,fff']#两个字符以上切割需要放在 [ ] 中re.split(r'[;,]',line)['aaa bbb ccc', 'ddd eee', 'fff']其实你需要记住的只是这...转载 2019-09-14 20:50:28 · 23519 阅读 · 0 评论 -
python 切割字符串
切割字符串,用split放法,分割符号为 ; , .import reline="3w.ναdΜāιι.com Provide you with a professional,platform for the sale and purchase of virtual products for games. Welcome to settle in 3w.ναdΜāιι.com"line_li...原创 2019-09-14 20:26:08 · 914 阅读 · 0 评论 -
python 字符串去除中文
去除中文#去除中文import rep1='帮会建了徽信群 没在群里的加下徽信:[30109552300],晚上群里有活动通知大家,(抢资源),争地盘,谢谢配合。i love you 'linee=re.sub('[\u4e00-\u9fa5]', '', p1)print(linee) :[30109552300],,(),,。i love you 去除标点simple_...原创 2019-09-14 20:20:19 · 14314 阅读 · 0 评论 -
python 提取字符串中的中文字符
仅仅提取汉字字符p1='帮会建了徽信群 没在群里的加下徽信:[30109552300],晚上群里有活动通知大家,(抢资源),争地盘,谢谢配合。i love you 'pre = re.compile(u'[\u4e00-\u9fa5]')res = re.findall(pre, p1)res1=''.join(res)print(res1)'帮会建了徽信群没在群里的加下徽信晚上群里...原创 2019-09-14 20:11:00 · 5480 阅读 · 2 评论 -
python 字符串与列表的相互转化
str1 = "hi hello world"st2=str1.split(" ")print(st2)['hi', 'hello', 'world']l = ["hi","hello","world"]l1=" ".join(l)print(l1) 'hi hello world'原创 2019-09-14 20:02:14 · 127 阅读 · 0 评论 -
python 正则 去除字符串中异常字符
import resimple_punctuation = '[’!"#$%&\'()*+,-/:;<=>?@[\\]^_`{|}~,。,]'p1='帮会建了徽信群 没在群里的加下徽信:[30109552300],晚上群里有活动通知大家,(抢资源),争地盘,谢谢配合。i love you 'line = re.sub(simple_punctuation, '', p1...原创 2019-09-14 19:37:53 · 506 阅读 · 0 评论 -
python 正则之提取字符串中的汉字,数字,字母
#过滤字符串中的英文与符号,保留汉字import rest = &amp;amp;quot;hello,world!!%[545]你好234世界。。。&amp;amp;quot;ste = re.sub(&amp;amp;quot;[A-Za-z0-9\!\%\[\]\,\。]&amp;amp;quot;, &amp;amp;quot;&amp;amp;quot;, str)print(ste)原创 2018-07-06 20:58:39 · 37461 阅读 · 2 评论 -
Python 自然语言处理(一)字频统计
import jiebatxt = open("红楼梦.txt", "r", encoding="gb18030").read()import collectionstxt1 = txttxt1 = txt1.replace('\n', '') # 删掉换行符txt1 = txt1.replace(',', '') # 删掉逗号txt1 = txt1.replace('。', ...原创 2018-04-02 17:59:44 · 3370 阅读 · 0 评论 -
python 自然语言处理(二) jieba 分词
import jiebas ='我想和女朋友一起去北京故宫博物院参观和闲逛。'#精确模式cut = jieba.cut(s)print (','.join(cut))我,想,和,女朋友,一起,去,北京故宫博物院,参观,和,闲逛,。 #全模式print ( ','.join(jieba.cut(s,cut_all = True)))我,想,和,女朋友,朋友,一起,去...转载 2018-04-02 22:01:35 · 480 阅读 · 0 评论 -
python 自然语言处理(三)获取词性
获取词性import jieba.posseg as psgs ='我想和女朋友一起去北京故宫博物院参观和闲逛。'print ([(x.word,x.flag) for x in psg.cut(s)])#print ([(x.word,x.flag) for x in psg.cut(s) if x.flag.startswith('n')])[('我', 'r'), ('想'...转载 2018-04-02 22:09:44 · 6576 阅读 · 1 评论 -
红楼梦的后四十回是不是曹雪芹所作--Python 自然语言处理(四)
对于红楼梦后四十回是否是曹雪芹所作,各有各的说法,我一直以为,人会说谎,但数据不会.我分别统计 第一回到四十回, 第四十一回到第八十回, 第八十一回到第一百二十回, 的词频: 1~40回, 与41~80回,有4个词等位相同,分别是第 0,2,7,14行的’宝玉’,’一个’,’贾母’,’出来’ 1~40回, 与81~120回,,有2个词等位相同,分别是第 0,3行的’宝玉’,’夫人’ ...原创 2018-04-02 23:34:13 · 2664 阅读 · 0 评论 -
python自然语言处理(五)chatterbot 搭建自动聊天机器人
#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Tue Apr 10 22:27:56 2018@author: luogan"""# -*- coding: utf-8 -*-from chatterbot import ChatBotbot = ChatBot( "Math & Tim...转载 2018-04-10 22:35:56 · 2120 阅读 · 0 评论 -
python 自然语言处理 (六) 采用deepQA搭建自动聊天机器人
deepQA是基于tensorflow 实现的开源项目,采用神经网络实现的自动化聊天机器人,在目前,网上的公开中文语料库比较少,采用训练的语料一般都是英文的 第一步: 到github上下载项目 deepQA下载 第二步: 进入目录下运行python main.pyGPU下训练一...原创 2018-04-13 18:30:59 · 3479 阅读 · 0 评论 -
python TF-IDF
TF-IDF转载 2018-07-10 22:32:26 · 337 阅读 · 0 评论 -
python word2vector (一)
from gensim.test.utils import common_texts, get_tmpfilefrom gensim.models import Word2Vecpath = get_tmpfile("word2vec.model")model = Word2Vec(common_texts, size=100, window=5, min_count=1, worker...原创 2018-07-31 22:58:04 · 723 阅读 · 0 评论 -
python 读取txt
f=open("foo.txt")for line in f: print (line)f = open("data.txt","r") #设置文件对象st= f.read() #将txt文件的所有内容读入到字符串str中f.close() #将文件关闭参考链接1参考链接2...原创 2018-08-01 15:05:08 · 349 阅读 · 0 评论 -
python word2vector (三)
三体链接下载三体文件,将其从命名为santi.txt 将其放在程序的统一目录下#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Wed Aug 1 10:13:28 2018@author: luogan"""#!/bin/bash# -*-coding=utf-8-*-import jiebaim..原创 2018-08-01 15:34:07 · 320 阅读 · 0 评论 -
python 文本聚类算法
三体下载 将下载的文件重命名为santi.txt,放在文件的目录下import jiebaimport refrom gensim.models import word2vecimport multiprocessingimport gensimimport numpy as npimport pandas as pddef segment_text(source_cor...原创 2020-07-10 21:07:29 · 3564 阅读 · 2 评论 -
word2vector 讲的比较好的文章
添加链接描述原创 2019-03-10 22:58:32 · 335 阅读 · 0 评论 -
word2vec刘建平
添加链接描述原创 2019-05-05 17:18:20 · 490 阅读 · 0 评论 -
word2vect负采样
添加链接描述原创 2019-05-05 17:50:49 · 498 阅读 · 0 评论 -
正则表达式-匹配中英文、字母和数字
在做项目的过程中,使用正则表达式来匹配一段文本中的特定种类字符,是比较常用的一种方式,下面是对常用的正则匹配做了一个归纳整理。匹配中文:[\u4e00-\u9fa5]英文字母:[a-zA-Z]数字:[0-9]匹配中文,英文字母和数字及_:^[\u4e00-\u9fa5_a-zA-Z0-9]+$同时判断输入长度:[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10}...原创 2019-09-11 15:01:46 · 1505 阅读 · 0 评论 -
Python 自然语言处理(一)字频统计
import jiebatxt = open("lg.txt", "r", encoding="gb18030").read()import collectionstxt1 = txttxt1 = txt1.replace('\n', '') # 删掉换行符txt1 = txt1.replace(',', '') # 删掉逗号txt1 = txt1.replace('。', '...原创 2022-02-24 10:08:40 · 387 阅读 · 0 评论