自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 用python的pandas生成excel的脚本

list_data:表格中的数据,接收的是多维列表,代码中有说明;背景:工作中需要对数据做处理,生成表格,这里小生封装了一个类,可以实现功能哦,希望可以帮助到大家,话不多说,直接上代码了。excel_name:表名称。使用的时候直接调用类方法即可,便捷好用。使用方法:传入三个数据,columns:表头名称,

2024-01-05 14:38:47 513

原创 python将不规则格式的JSON数据转成json格式数据

背景:不知道各位朋友们有没有在工作中遇到过需要将数据json化,但是得到的原本数据是各式各样的不规则 json 格式数据,需要转成 json ,但是问题多多,今天小生在此做了一个json数据的处理,希望可以适合大家的场景,帮助到你们,话不多说,直接上代码。:传入需要转化的数据,info,再按照顺序传入 json 里面的每一个键。具体请细看代码,不明白的可以留言评论哦!

2024-01-05 14:28:31 491

原创 python下载批量图片

批量图片的抓取

2022-11-16 17:00:45 924 2

原创 selenium的简单基础教学与代码的使用

基于python的selenium库实现的爬虫技术一、简介及作用我们模拟登陆用的是selenium库,selenium是一个自动化测试工具,在爬虫中通常用来进行模拟登陆。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,同时Selenium也支持多种语言开发,比如 Java,C,Ruby、Python等等。selenium可以模拟登录网站进去,获取到网站分析,用简单的html就可以分析标签得到我们想要的数据,避免了动态加密json格式等的不容易抓取的网站,缺点就是

2021-12-16 17:35:01 322 2

原创 NLP文本生成

自然语言生成任务,如文本摘要和图像标题的生成。seq2seq的模型原理 https://blog.csdn.net/Irving_zhang/article/details/78889364 </div> <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-f57960eb32.css">

2021-05-11 10:49:51 1744

原创 Python_读取PDF文件文本内容

经常爬虫的小伙伴,或遇到一些PDF文件的处理,可能我们要下载这个文件,并要识别里面的文本内容,今天小汪就在这里给大家分享一下怎么识别pdf文件里面的文字;话不多说,直接上代码from pdfminer.converter import PDFPageAggregatorfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.layout import LTTextBoxHorizontal, LAParamsfr.

2021-03-03 17:24:31 770 3

原创 当MYSQL遇到[Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause问题

[Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause解决办法 MySQL解决办法:执行sql 语句:复制下面的语句直接在mysql中运行语句即可!select version(),@@sql_mode;SET sql_mode=(SELECT REPLACE(@@sql_mode,‘ONLY_FULL_GROUP_BY’,’’));...

2021-01-21 17:37:05 138 1

原创 python中正则表达式与jieba分词的使用

这次和大家分享一下主要使用正则表达式匹配文本信息内容的案例,其中还用到了jieba分词词性标注技术,和一些对文本的切片工作。有兴趣学习的可以详细看看,具体内容,应该有点帮助,这是本人一个一个代码敲出来的1000多行代码。# coding:utf-8import osimport docximport pickleimport timeimport datetimeimport reimport sysimport jieba.posseg as psgimport numpy as np

2021-01-07 16:04:03 895 2

原创 安装Mysql时遇到的一些疑难杂症!!!

安装MYSQL时的一系列三大问题与三大解决方法问题一:问题二:问题三:问题一:在安装时候输入 net start mysql 时候报错为:net不是内部或外部命令也不是可运行。解决方法: 环境变量的问题:首先确定C:\Windows\System32下有net.exe。在一下中我的电脑–>属性–>高级–>环境变量 path的变量值新加: %SystemRoot%\system32在这里记住是添加 不是把之前的path的环境变量删掉,一定注意!修改完成后,需要重新打开cm

2021-01-07 15:53:07 1818 7

原创 HMM详细讲解与代码的实现

#写在前面老习惯,正文之前瞎扯一通。HMM学了很久,最初是在《统计学自然语言处理》里面就学到了相关内容,并且知道HMM CRF一直都是NLP比较底层比较基础且较为有效的算法模型(虽然感觉还是挺难的),之前仅仅局限在了解前向算法和维特比算法上。也没有去写代码,只知道个大概思路。最近从52nlpHMM系列讲解再次入手,结合多篇博客、github项目以及李航的《统计学习方法》比较全面的对HMM做了一次学习,要求对自己强制输出,所以在整体公式推导没有什么大问题之后,昨天花了一天完善了代码,今天来做一个全面的讲解,

2020-10-23 14:30:42 1831

原创 python下载pip install torch的方法

pip install torch出现错误首先使用Python的pip安装命令: pip install torch 出现错误解决办法:这时需要先下载pytorch包,根据自己的python版本选择。pytorch包链接:https://www.lfd.uci.edu/~gohlke/pythonlibs这个红的是我自己的python版本选择适合自己的Python版本的pytorch包进行下载,例如:torch-1.6.0-cp37-cp37m-win_amd64.whl在下载好之后将下载的

2020-10-21 11:22:44 20096 3

原创 深度学习中,常用的激活函数理解与总结

引言学习神经网络的时候我们总是听到激活函数这个词,而且很多资料都会提到激活函数,比如sigmoid函数、tanh函数、ReLU函数,那我们就来详细了解一下激活函数的方方面面。本文的内容包括以下几个方面:1.什么是激活函数2.激活函数有什么用途?它是做什么用的?3.有哪些激活函数?它们的性质优缺点和区别是什么?4.在应用中应该选择什么样的激活函数?如果你对以上几个问题不是很清楚,下面的内容对你是有价值的。什么是激活函数?首先要了解神经网络的基本模型。神经网络中的每个神经元节点接受上一层的神

2020-10-17 14:17:07 573

原创 seq2seq主要实现步骤和源码

注意点:1 数据预处理阶段(添加特殊字符)主要用来进行字符补全,和都是用在Decoder端的序列中,告诉解码器句子的起始与结束则用来替代一些未出现过的词或者低频词2 encoder直接LSTM或RNN模型#下面我用到的是LSTM模型3 decoder对target数据进行处理构造Decoder在训练过程中,我们需要将我们的target序列作为输入传给Decoder端RNN的每个阶段,而不是使用前一阶段预测输出,这样会使得模型更加准确。TrainingHelper用于训练阶段,Greedy

2020-10-16 11:16:43 1731

原创 MYSQL错误,由于找不到vcruntime140_1.dll,无法继续执行代码

问题描述: 安装mysql时报错: 由于找不到vcruntime140_1.dll,无法继续执行代码解决方法: 这是缺少了动态链接库(.ddl文件), 跟mysql无关, 下载一份即可, 下载地址, 拖到下面, 我下载的是64位版本的压缩包下载地址:https://cn.dll-files.com/vcruntime140_1.dll.html解压后将vcruntime140_1.dll复制到C:\Windows\System32即可**注意,32位版本的vcruntime140_1.dl

2020-10-16 09:59:48 812

原创 NLP——文本分类

文本分类文本分类问题: 给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个文本分类应用: 常见的有垃圾邮件识别,情感分析文本分类方向: 主要有二分类,多分类,多标签分类文本分类方法: 传统机器学习方法(贝叶斯,svm等),深度学习方法(fastText,TextCNN等)本文的思路: 本文主要介绍文本分类的处理过程,主要哪些方法。致力让读者明白在处理文本分类问题时应该从什么方向入手,重点关注什么问题,对于不同的场景应该采用什么方法。文本分类的处理大致分为文本预处理、文本特征提取、分

2020-08-28 15:16:28 1371

原创 2020-08-24

关键词摘取关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。因此,关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用,它不仅是进行这些工作不可或缺的基础和前提,也是互联网上信息建库的一项重要工作本文介绍的是在文本中获取关键词的俩种方法1.TF-IDF2.Text-Rank下面介绍一些关于关键词抽取的常用和经

2020-08-24 17:33:35 379

原创 2020-08-20

NLP — 条件随机场CRF详解CRF定义这里定义只讲线性链随机场,针对自然语言处理领域的处理进行设计,因此这里只提线性链随机场定义:线性链条件随机场)设X = (X_1,X_2,X_3,…,X_n),Y=(Y_1,Y_2,Y_3,…,Y_n)均为线性链表示的随机变量序列,若在给定随机变量序列的条件下,随机变量序列Y的条件概率分布就构成条件随机场,即满足马尔可夫性P(Y_i|X,Y_1,Y_2,…,Y_{i-1},Y_{i+1},…,Y_n) = P(Y_i|X,Y_{i-1},Y_{i+1})则

2020-08-20 15:48:46 153

原创 检索式聊天机器人,客服系统

检索式聊天机器人,客服系统操作流程:原始数据(原始的正确问题对数据):question1, answer1question2, answer2question3, answer3question4, answer4question5, answer5question6, answer6question7, answer7…操作步骤如下 :0. 使用question数据构建训练文本相似度度量的训练数据,并训练、部署模型。1. 使用训练好的文本相似度度量模型,对所有的question提

2020-08-19 17:13:57 463

原创 2020-08-18

python+jieba+tfidf算法 文本相似度jieba是python第三方库,用于自然语言处理,对文本进行分词,当然也有其他的分词库。gensim库,利用TFIDF算法来进行文本相似度计算,通过利用gensim库的corpora,models,similarities处理后续。基本思路:jieba进行分词,整理为指定格式->gensim库将要对比的文档通过doc2bow转化为稀疏向量->再通过models中的tf-idf将语料库进行处理->特征值和稀疏矩阵相似度建立索引-&g

2020-08-18 17:19:40 120 1

原创 2020-08-12

NLP — 词性标注#本节我们将介绍另外一个重要的知识点即词性标注,同样的在宗老师的书里都有详细的讲解,这里就简单的讲解一下,那么我们下面就开始:Part-of-speech,是重要的基础性工作,为后续的句法分析等进一步工作提供基础。分词,命名实体识别,词性标注并称汉语词法分析“三姐妹”。词性标注即在给定的句子中判定每个词最合适的词性标记。词性标注的正确与否将会直接影响到后续的句法分析、语义分析,是中文信息处理的基础性课题之一。常用的词性标注模型有 N 元模型、隐马尔科夫模型、最大熵模型、基于决策树的

2020-08-12 09:30:56 352

原创 2020-08-10

python文本相似度计算1.分词、去停用词2.词袋模型向量化文本3.TF-IDF模型向量化文本4.LSI模型向量化文本5.计算相似度**词袋模型最简单的表示方法是词袋模型。把一篇文本想象成一个个词构成的,所有词放入一个袋子里,没有先后顺序、没有语义。例如:John likes to watch movies. Mary likes too.John also likes to watch football games.这两个句子,可以构建出一个词典,key为上文出现过的词,value

2020-08-10 16:19:14 199

原创 2020-08-07

seq2seq序列到序列模型本文从RNN角度出发,主要是讲述seq2seq模型的原理。Seq2Seq模型简介Seq2Seq模型是输出的长度不确定时采用的模型,这种情况一般是在机器翻译的任务中出现,将一句中文翻译成英文,那么这句英文的长度有可能会比中文短,也有可能会比中文长,所以输出的长度就不确定了。如下图所,输入的中文长度为4,输出的英文长度为2。seq2seq模型在网络结构中,输入一个中文序列,然后输出它对应的中文翻译,输出的部分的结果预测后面,根据上面的例子,也就是先输出“machine”,将

2020-08-07 17:33:27 212

原创 爬虫之 静态页面和动态页面

***## 标题*爬虫有静态页面和动态页面,这里先讲解静态的选取,先看网页的源代码里面是否有需要爬取的关键词,有就是静态页面直接调用cookile get得到数据 **关于python的爬虫的一些内容与爬安居客与58同城的租房信息,选取一些关键词,进行爬取,代码如下:import requests,pymysqlfrom lxml import etreeimport time#爬取内容一下七个信息#标题 户型 面积 区域 小区 交通 价格#龥 0 replace('龥,驋,餼,鸺,麣,龤,

2020-08-06 15:17:35 963 1

原创 正则匹配下的一些问题

最近遇到了一些正则匹配文本信息的难点,困扰我、、、、、在这里插入代码片a = ‘经委托要求:发现你发舒服你大概可是你个广东省鉴定开始时间为2020年7月30日,是不是你又经过的地点。’b=re.compile(’(?<=(委托|鉴定)要求:)(.*?)(?=(检验|鉴定)开始(时间|日期))’)c=b.findall(a)d=re.findall(’\d{4}年\d{1,2}月\d{1,2}日’,a)print©print(d)下面是打印结果:D:\MyDownloads\anacond

2020-07-30 16:18:37 145

原创 python函数的一些调用

python中调用相同目录下的文件里面的函数 为什么会说函数不存在和不能调用呢 路径 文件名都正确 而且其他函数可以调用 就几个函数不能调用加粗样式在这里插入代码片from module.reg_utils import reg_text , Text, my_split, my_findall, my_sub, get_element_from_concatpython的一些模型调用问题标题欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想

2020-07-28 16:31:20 121

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除