自然语言处理
文章平均质量分 82
拼命_小李
始终坚信知识源于分享,努力大于幸运!
亚太地区数学建模大赛优胜奖
美国大学生数学建模大赛优胜奖
中国大学生数学建模大赛省级三等奖
全国大学生计算机设计大赛国家级三等奖
大学生创新创业大赛省级三等奖
工商杯创新创业竞赛市级三等奖
展开
-
python基于OCR深度学习实现商品配料表识别
我就当前热点话题,对食品配料识别进行了研究和实现,目前调研常用的几个开源的OCR识别模型主要有几个如下表所示,简单说一下各个模型的优缺点,paddleocr用起来很方便是国产识别模型(baidu搞得),只需要用python安装对应模块即可,而且识别速度和效果是这几个中最好的(个人感觉),而且可以更换不同级别的模型,例如服务器级别的chinese_ocr_db_crnn_server、和手机端级别的chinese_ocr_db_crnn_mobile等。# 安装paddleOCR。# 安装后创建服务环境。原创 2022-11-22 18:40:42 · 2262 阅读 · 1 评论 -
【深度学习】利用深度学习监控女朋友的微信聊天?
效果1、概要 利用深度学习模型Seq2Seq模型搭建拼音转中文模型,利用python键盘监控事件模块PyHook3监控女朋友的发送的拼音数据并发送给模型进行中文预测存储到本地日志中。2、结构 使用咱们csdn的Centos云主机搭建,Seq2Seq模型训练一个拼音转中文的model,其实就类似于搜狗输入法的软件,通过键盘监听事件,监听特定的微信的服务窗口,获取你女朋友的聊天输入拼音数据存储到队列中,Monitor从队列获取拼音数据,发送HTTP/GET请求给云服务拼音转中文的模型原创 2022-06-19 15:27:06 · 3153 阅读 · 9 评论 -
基于LSTM模型实现新闻分类
1、简述LSTM模型LSTM是长短期记忆神经网络,根据论文检索数据大部分应用于分类、机器翻译、情感识别等场景,在文本中,主要使用tensorflow及keras,搭建LSTM模型实现新闻分类案例。(只讨论和实现其模型的应用案例,不去叙述起实现原理)2、 数据处理需要有新闻数据和停用词文档做前期的数据准备工作,使用jieba分词和pandas对初始数据进行预处理工作,数据总量为12000。初始数据集如下图:首先读取停用词列表,其次使用pandas对数据文件读取,使用jieba库对每行数据进原创 2022-03-01 17:38:42 · 4219 阅读 · 10 评论 -
基于支持向量机SVM和朴素贝叶斯NBM情感分析
一、概述使用大约十万条的微博评论作为训练数据,数据1表示为积极评论,0表示消极评论,利用pandas、jieba对数据进行前期处理,TFIDF将处理后的数据进行向量化,然后利用支持向量机和朴素贝叶斯对处理后的数据集进行训练。算法实现上利用python的sklearn库进行实现和训练,工具使用juypternotebook实现。从训练的结果上来看,很明显支持向量机的训练结果是好于朴素贝叶斯算法的,SVM模型会随着数据量的增大准确度也会增大,但是实际使用过程中,朴素...原创 2021-12-25 14:45:53 · 7477 阅读 · 7 评论 -
No module named 'keras.engine.base_layer'
错误截图:最近在使用kears的时候出现No module named 'keras.engine.base_layer'错误原因:在网上搜索一下,大概就是由于版本的问题我此时的keras的版本是2.1.x但是由于我们安装了有关使用keras的模块是2.2.x以后的所以就出现了如上问题。解决办法:我们直接进行pip install --upgrade keras(wind...原创 2020-01-18 10:47:47 · 8404 阅读 · 0 评论 -
自然语言-多国翻译数据集下载
http://www.manythings.org/anki/原创 2020-01-15 09:38:54 · 781 阅读 · 0 评论 -
jieba-fast安装过程和问题解决(unable to find vcvarsall.bat)
问题来源:在使用jieba分词的时候发现一个问题就是从开始到分词有一个慢的过程,下图所示:对策思路:其实有一个拿Cython重写了jieba这个包就是jieba-fast下载地址如下https://pypi.org/project/jieba-fast/#files出现问题1:安装jieba_fast他是使用c重新写了一遍jieba分词,所以速度上更快一些,但是...原创 2020-01-08 19:07:02 · 6294 阅读 · 0 评论 -
中文向量化常用方法
这两天在看Tomas Mikolov2013年在ICLR提出的用于获取word vector的论文《Efficient estimation of word representations in vector space》,文中简单介绍了两种训练模型CBOW、Skip-gram,以及两种加速方法Hierarchical Softmax、Negative Sampling。除了word2vec之外,...原创 2019-12-31 10:14:41 · 5632 阅读 · 1 评论