学无止境还得学-CSDN博客

原创企业微信机器人助手设计方案

由于个人微信渠道封控不能实现微信端的交互，转企业微信机器人助手的搭建来实现在个人微信端与用户进行交互功能。：WorkTool基于用户昵称推送消息，可能存在指向性不唯一的问题。生态渠道打通企业微信助手机器人功能，实现用户与助手的交互，还可以实现主动推送消息。支持机器人主动推送消息到群聊或者私聊，通过发送消息API进行消息推送。根据业务需求生成回复消息，并通过WorkTool API推送给用户。：设置接收消息的服务器URL，用于接收用户发送的消息。解析企业微信回调数据，提取用户消息并进行业务逻辑处理。

2025-02-18 16:50:55 1218

原创用python的pandas生成excel的脚本

list_data：表格中的数据，接收的是多维列表，代码中有说明；背景：工作中需要对数据做处理，生成表格，这里小生封装了一个类，可以实现功能哦，希望可以帮助到大家，话不多说，直接上代码了。excel_name：表名称。使用的时候直接调用类方法即可，便捷好用。使用方法：传入三个数据，columns：表头名称，

2024-01-05 14:38:47 726

原创 python将不规则格式的JSON数据转成json格式数据

背景：不知道各位朋友们有没有在工作中遇到过需要将数据json化，但是得到的原本数据是各式各样的不规则 json 格式数据，需要转成 json ，但是问题多多，今天小生在此做了一个json数据的处理，希望可以适合大家的场景，帮助到你们，话不多说，直接上代码。：传入需要转化的数据，info，再按照顺序传入 json 里面的每一个键。具体请细看代码，不明白的可以留言评论哦！

2024-01-05 14:28:31 754

原创 python下载批量图片

批量图片的抓取

2022-11-16 17:00:45 1049 1

原创 selenium的简单基础教学与代码的使用

基于python的selenium库实现的爬虫技术一、简介及作用我们模拟登陆用的是selenium库，selenium是一个自动化测试工具，在爬虫中通常用来进行模拟登陆。它支持各种浏览器，包括 Chrome，Safari，Firefox 等主流界面式浏览器，同时Selenium也支持多种语言开发，比如 Java，C，Ruby、Python等等。selenium可以模拟登录网站进去，获取到网站分析，用简单的html就可以分析标签得到我们想要的数据，避免了动态加密json格式等的不容易抓取的网站，缺点就是

2021-12-16 17:35:01 408 2

原创 NLP文本生成

自然语言生成任务，如文本摘要和图像标题的生成。seq2seq的模型原理 https://blog.csdn.net/Irving_zhang/article/details/78889364 </div> <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-f57960eb32.css">

2021-05-11 10:49:51 1860

原创 Python_读取PDF文件文本内容

经常爬虫的小伙伴，或遇到一些PDF文件的处理，可能我们要下载这个文件，并要识别里面的文本内容，今天小汪就在这里给大家分享一下怎么识别pdf文件里面的文字；话不多说，直接上代码from pdfminer.converter import PDFPageAggregatorfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.layout import LTTextBoxHorizontal, LAParamsfr.

2021-03-03 17:24:31 841 3

原创当MYSQL遇到[Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause问题

[Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause解决办法 MySQL解决办法：执行sql 语句：复制下面的语句直接在mysql中运行语句即可！select version(),@@sql_mode;SET sql_mode=(SELECT REPLACE(@@sql_mode,‘ONLY_FULL_GROUP_BY’,’’));...

2021-01-21 17:37:05 189 1

原创 python中正则表达式与jieba分词的使用

这次和大家分享一下主要使用正则表达式匹配文本信息内容的案例，其中还用到了jieba分词词性标注技术，和一些对文本的切片工作。有兴趣学习的可以详细看看，具体内容，应该有点帮助，这是本人一个一个代码敲出来的1000多行代码。# coding:utf-8import osimport docximport pickleimport timeimport datetimeimport reimport sysimport jieba.posseg as psgimport numpy as np

2021-01-07 16:04:03 1030 2

原创安装Mysql时遇到的一些疑难杂症！！！

安装MYSQL时的一系列三大问题与三大解决方法问题一：问题二：问题三：问题一：在安装时候输入 net start mysql 时候报错为：net不是内部或外部命令也不是可运行。解决方法：环境变量的问题：首先确定C:\Windows\System32下有net.exe。在一下中我的电脑–>属性–>高级–>环境变量 path的变量值新加: %SystemRoot%\system32在这里记住是添加不是把之前的path的环境变量删掉，一定注意！修改完成后，需要重新打开cm

2021-01-07 15:53:07 1889 7

原创 HMM详细讲解与代码的实现

#写在前面老习惯，正文之前瞎扯一通。HMM学了很久，最初是在《统计学自然语言处理》里面就学到了相关内容，并且知道HMM CRF一直都是NLP比较底层比较基础且较为有效的算法模型（虽然感觉还是挺难的），之前仅仅局限在了解前向算法和维特比算法上。也没有去写代码，只知道个大概思路。最近从52nlpHMM系列讲解再次入手，结合多篇博客、github项目以及李航的《统计学习方法》比较全面的对HMM做了一次学习，要求对自己强制输出，所以在整体公式推导没有什么大问题之后，昨天花了一天完善了代码，今天来做一个全面的讲解，

2020-10-23 14:30:42 2058

原创 python下载pip install torch的方法

pip install torch出现错误首先使用Python的pip安装命令： pip install torch 出现错误解决办法：这时需要先下载pytorch包，根据自己的python版本选择。pytorch包链接：https://www.lfd.uci.edu/~gohlke/pythonlibs这个红的是我自己的python版本选择适合自己的Python版本的pytorch包进行下载，例如：torch-1.6.0-cp37-cp37m-win_amd64.whl在下载好之后将下载的

2020-10-21 11:22:44 21140 3

原创深度学习中，常用的激活函数理解与总结

引言学习神经网络的时候我们总是听到激活函数这个词，而且很多资料都会提到激活函数，比如sigmoid函数、tanh函数、ReLU函数，那我们就来详细了解一下激活函数的方方面面。本文的内容包括以下几个方面：1.什么是激活函数2.激活函数有什么用途？它是做什么用的？3.有哪些激活函数？它们的性质优缺点和区别是什么？4.在应用中应该选择什么样的激活函数？如果你对以上几个问题不是很清楚，下面的内容对你是有价值的。什么是激活函数？首先要了解神经网络的基本模型。神经网络中的每个神经元节点接受上一层的神

2020-10-17 14:17:07 624

原创 seq2seq主要实现步骤和源码

注意点：1 数据预处理阶段（添加特殊字符）主要用来进行字符补全，和都是用在Decoder端的序列中，告诉解码器句子的起始与结束则用来替代一些未出现过的词或者低频词2 encoder直接LSTM或RNN模型#下面我用到的是LSTM模型3 decoder对target数据进行处理构造Decoder在训练过程中，我们需要将我们的target序列作为输入传给Decoder端RNN的每个阶段，而不是使用前一阶段预测输出，这样会使得模型更加准确。TrainingHelper用于训练阶段，Greedy

2020-10-16 11:16:43 1845

原创 MYSQL错误，由于找不到vcruntime140_1.dll,无法继续执行代码

问题描述: 安装mysql时报错: 由于找不到vcruntime140_1.dll,无法继续执行代码解决方法: 这是缺少了动态链接库(.ddl文件), 跟mysql无关, 下载一份即可, 下载地址, 拖到下面, 我下载的是64位版本的压缩包下载地址：https://cn.dll-files.com/vcruntime140_1.dll.html解压后将vcruntime140_1.dll复制到C:\Windows\System32即可**注意,32位版本的vcruntime140_1.dl

2020-10-16 09:59:48 896

原创 NLP——文本分类

文本分类文本分类问题：给定文档p（可能含有标题t），将文档分类为n个类别中的一个或多个文本分类应用：常见的有垃圾邮件识别，情感分析文本分类方向：主要有二分类，多分类，多标签分类文本分类方法：传统机器学习方法（贝叶斯，svm等），深度学习方法（fastText，TextCNN等）本文的思路：本文主要介绍文本分类的处理过程，主要哪些方法。致力让读者明白在处理文本分类问题时应该从什么方向入手，重点关注什么问题，对于不同的场景应该采用什么方法。文本分类的处理大致分为文本预处理、文本特征提取、分

2020-08-28 15:16:28 1489

原创 2020-08-24

关键词摘取关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期，关键词是为了文献标引工作，从报告、论文中选取出来用以表示全文主题内容信息的单词或术语，在现在的报告和论文中，我们依然可以看到关键词这一项。因此，关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用，它不仅是进行这些工作不可或缺的基础和前提，也是互联网上信息建库的一项重要工作本文介绍的是在文本中获取关键词的俩种方法1.TF-IDF2.Text-Rank下面介绍一些关于关键词抽取的常用和经

2020-08-24 17:33:35 420

原创 2020-08-20

NLP — 条件随机场CRF详解CRF定义这里定义只讲线性链随机场，针对自然语言处理领域的处理进行设计，因此这里只提线性链随机场定义：线性链条件随机场）设X = (X_1,X_2,X_3,…,X_n),Y=(Y_1,Y_2,Y_3,…,Y_n)均为线性链表示的随机变量序列，若在给定随机变量序列的条件下，随机变量序列Y的条件概率分布就构成条件随机场，即满足马尔可夫性P(Y_i|X,Y_1,Y_2,…,Y_{i-1},Y_{i+1},…,Y_n) = P(Y_i|X,Y_{i-1},Y_{i+1})则

2020-08-20 15:48:46 180

原创检索式聊天机器人，客服系统

检索式聊天机器人，客服系统操作流程：原始数据(原始的正确问题对数据)：question1, answer1question2, answer2question3, answer3question4, answer4question5, answer5question6, answer6question7, answer7…操作步骤如下：0. 使用question数据构建训练文本相似度度量的训练数据，并训练、部署模型。1. 使用训练好的文本相似度度量模型，对所有的question提

2020-08-19 17:13:57 534

原创 2020-08-18

python+jieba+tfidf算法文本相似度jieba是python第三方库，用于自然语言处理，对文本进行分词，当然也有其他的分词库。gensim库，利用TFIDF算法来进行文本相似度计算，通过利用gensim库的corpora，models，similarities处理后续。基本思路：jieba进行分词，整理为指定格式->gensim库将要对比的文档通过doc2bow转化为稀疏向量->再通过models中的tf-idf将语料库进行处理->特征值和稀疏矩阵相似度建立索引-&g

2020-08-18 17:19:40 155 1

原创 2020-08-12

NLP — 词性标注#本节我们将介绍另外一个重要的知识点即词性标注，同样的在宗老师的书里都有详细的讲解，这里就简单的讲解一下，那么我们下面就开始：Part-of-speech，是重要的基础性工作，为后续的句法分析等进一步工作提供基础。分词，命名实体识别，词性标注并称汉语词法分析“三姐妹”。词性标注即在给定的句子中判定每个词最合适的词性标记。词性标注的正确与否将会直接影响到后续的句法分析、语义分析，是中文信息处理的基础性课题之一。常用的词性标注模型有 N 元模型、隐马尔科夫模型、最大熵模型、基于决策树的

2020-08-12 09:30:56 421

原创 2020-08-10

python文本相似度计算1.分词、去停用词2.词袋模型向量化文本3.TF-IDF模型向量化文本4.LSI模型向量化文本5.计算相似度**词袋模型最简单的表示方法是词袋模型。把一篇文本想象成一个个词构成的，所有词放入一个袋子里，没有先后顺序、没有语义。例如：John likes to watch movies. Mary likes too.John also likes to watch football games.这两个句子，可以构建出一个词典，key为上文出现过的词，value

2020-08-10 16:19:14 230

原创 2020-08-07

seq2seq序列到序列模型本文从RNN角度出发，主要是讲述seq2seq模型的原理。Seq2Seq模型简介Seq2Seq模型是输出的长度不确定时采用的模型，这种情况一般是在机器翻译的任务中出现，将一句中文翻译成英文，那么这句英文的长度有可能会比中文短，也有可能会比中文长，所以输出的长度就不确定了。如下图所，输入的中文长度为4，输出的英文长度为2。seq2seq模型在网络结构中，输入一个中文序列，然后输出它对应的中文翻译，输出的部分的结果预测后面，根据上面的例子，也就是先输出“machine”，将

2020-08-07 17:33:27 246

caohailan666的博客